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مقدمة المترجم 

يقدم هذا الكتاب دروساً تعليمية عديدةفي مجال تعلم الالة وعلم البيانات ويتميز الكتاب 
ببساطة لغته وسهولة فهمها من قبل القارئ مع شرح مميز مدعم بالأمثلة والتمارينفي نهاية 
كل فصل. 

عند انتهائي من قراءه هذا الكتاب» احببت ان اترجم هذا الكتاب وبعد التواصل مع المؤلف 
الاستاذ ميلاد وزان لم يبد مانعا من ترجمته الى العربية. لقد اخترت كتاب "يادكيرى ماشين 
وعلم داده ها" للأستاذ ميلاد وزان لما رأيته من جودة هذا الكتاب» وللمنهجية التي اتبعها 
المؤلففي ترتيبه وبساطة شرحه. لقد حاولت قدر المستطاع ان اخرج بترجمة ذات جودة 
عالية ومع هذا يبقى عملاً بشرياً يحتمل النقص» فاذا كان لديك أي ملاحظات حول هذا 
الكتاب» فلا تتردد بمراسلتنا عبر بريدنا الالكتروني -alaa.taima@qu.edu.ig‏ 


نآمل ان يساعد هذا الكتاب كل من يريد ان يدخلني مجال تعلم IY‏ وعلم البيانات 
ومساعدة القارئ العربي على تعلم هذا المجال. اسأل الله التوفيقفي هذا العمل لأثراء 
المحتوى العربى الذي يفتقر أشد الافتقار إلى محتوى جيد ورصينفي مجال الذكاء 
الاصطناعي its‏ الالة والتعلم العميق وعلم البيانات. ونرجو لك الاستمتاع مع هذا الكتاب 
ولا تنسونا من صالح الدعاء. 


د. علاء طعيمة 
كلية علوم الحاسوب وتكنولوجيا المعلومات 
جامعة القادسية 
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علم البيانات وتعلم الآلة 


اليوم» إذا جمعت أبرز قادة الأعمال العالميين وطلبت منهم إحداث أكبر فرق بين الأعمال التجارية 
في القرنين العشرين والحادي والعشرين » فمن المرجح أن يقولوا نفس الشيء: البيانات. 

منذ مطلع القرنء نمت كمية البيانات بمعدل مذهل مع ظهور وسائل التواصل الاجتماعي e‏ 
والهواتف e LSU‏ وإنترنت الأشياء » والتطورات التكنولوجية الأخرى. تشير التقديرات إلى أن 
أكثر من 90/ من جميع البيانات التي تم إنشاؤها بواسطة الإنسان قد تم إنشاؤها في السنوات 
الخمس الماضية. يعرف هذا الانفجار المعلوماتي باسم "البيانات الضخمة" وسيغير العالم من 
حولنا GLS‏ أدى النمو الهائل في إنتاج البيانات إلى جعل المؤسسات أكثر اهتمامًا من أي وقت 
مضى بكيفية استخدام البيانات لتعزيز اهتماماتها التجارية. وفي الوقت نفسه » يتطلع الأشخاص 
بشكل متزايد إلى تطوير مهاراتهم في البيانات لتسليط الضوء على السيرة الذاتية والتقدم الوظيفي 
والأمن الوظيفي. 

تعد البيانات اليوم أداة ووقودًا للشركات لاكتساب رؤى مهمة وتحسين أدائها. سيطر ele‏ 
البيانات على كل صناعة تقريبًا في العالم. لا توجد صناعة في العالم اليوم لا تستخدم البيانات. 
لكن من سيحصل على هذه البصيرة؟ من يقوم بمعالجة جميع البيانات الخام؟ كل شيء يقوم به 
محلل بيانات أو عالم بيانات. olia‏ هما أكثر الأدوار الوظيفية شيوعًا في هذا المجال. OY‏ 
الشركات حول العالم تتطلع إلى تحقيق أقصى استفادة من بياناتها. بالنسبة للأشخاص الذين 
يبحثون عن فرص عمل طويلة «Je MI‏ لطالما كانت وظائف علوم البيانات HLS‏ عمليًا وموثوقا 
به. من المرجح أن يستمر هذا الاتجاه مع دمج الذكاء الاصطناعي والتعلم الآلي في حياتنا اليومية 
واقتصادياتنا. 

البيانات لا تخبرنا فقط عن الماضى. إذا قمنا بنمذجة البيانات بعناية وبدقة » يمكننا العثور 
على أنماط وارتباطات للتنبؤ بسوق الأوراق المالية « وانتاج تسلسل البروتين « واكتشاف الهياكل 
البيولوجية مثل الفيروسات » وأكثر من ذلك. ومع ذلك » فإن نمذجة كميات كبيرة من البيانات 
يدويًا أمر شاق. لتحقيق ذلك » لجأنا إلى خوارزميات التعلم الآلي التي يمكن أن تساعدنا في 
استخراج المعلومات من البيانات. يؤدي التعلم الآلي للأتمتة المهام التي تتطلب عادة ذكاءً بشريًا. 
يمكن تعريف التعلم الآلي » بدوره » على أنه استخدام وتطوير أنظمة الكمبيوتر القادرة على التعلم 
والتكيف دون تخطيط صريح. تستخدم هذه الأنظمة الخوارزميات والنماذج الإحصائية لتحليل 
واستنتاج الأنماط في البيانات. يمكن لخوارزميات التعلم الآلي أن تحل المشكلات المعقدة غير 
العملية أو التي يستحيل القيام بها يدويًا » وتعلم التوزيعات والأنماط والارتباطات لكشف المعرفة 
داخل البيانات. تقوم الخوارزميات بذلك عن طريق استكشاف مجموعة بيانات وإنشاء نموذج 


تقريبي لتوزيع البيانات » بحيث عندما نقوم بتغذية بيانات جديدة وغير مرئية » فإنها ستؤدي إلى 

بشكل عام » يمكن أن تحقق خوارزميات التعلم الآلي القدرة على التعلم من خلال ثلاث 
طرق مختلفة: 

© التعلم مع الاشراف: التعلم الخاضع الاشراف في التعلم JV‏ هو طريقة تنشئ نموذجًا 

للتنبؤ بالنتائج le ely‏ البيانات المصنفة. يعني وجود البيانات المصنفة أنه يتم تقديم 
إجابة أو حل لكل عينة من مجموعة البيانات. كمثال بسيط » إذا أردنا أن يقوم نموذج 
التعلم الآلي الخاص بنا بعمل تنبؤات حول فاكهة التفاح أو الموز » فقم بتسمية القيم 
"تفاحة" أو "موز" بمجموعة من السمات مثل الوزن والطول والعرض وأي قياسات 
ذات صلة من الفاكهة المتاحة. دعونا نلقي نظرة على مثال أكثر صلة بالأعمال 
التجارية؛ خسارة العملاء. لفهم رفض العميل بشكل أفضل . يجب عليك أولاً تحليل 
المقاييس التي قد تؤدي إلى خروج العميل. تتضمن مجموعة البيانات الخاصة بك 
لهذا النوع من النماذج متغيرات الفهرس مثل الأيام المنقضية منذ آخر عملية شراء ء 
ومتوسط مبلغ الشراء c‏ ومتغير التوقع المسمى e‏ سواء كان الشخص لا يزال عميلاً أم 
لا. نظرًا oY‏ لدينا بيانات سابقة عن حالة العميل » فإن إنشاء نموذج باستخدام هذا 
النوع من مجموعة البيانات يمكن أن يكون مرشحًا Gl,‏ للتعلم الخاضع للإشراف. 
التعلم بدون اشراف: التعلم غير الإشرافي في التعلم الآلي هو عندما نقدم أمثلة إلى 
الخوارزمية دون أي توجيه ونترك إنشاء التسمية للخوارزمية. بمعنى آخر . يسعى التعلم 
غير الإشرافى إلى العثور على أنماط مخفية فى البيانات غير المسماة وإنشاء 
مجموعات EUN‏ على سبيل الال Late‏ نحتاج إلى فهم كيفية تصنيف 
المجموعات ضمن مجموعة بيانات العميل إلى أقسام متشابهة Fly‏ على خصائصها 
وسلوكياتها. غالبًا ما يستخدم التعلم غير الإشرافي للتحليل الاستكشافي وتشخيص 
التشوهات. لأنه يساعد فى معرفة كيفية ارتباط أجزاء البيانات والاتجاهات التى قد 
توجد. يمكن استخدامها اا المسبقة لبياناتك قبل استخدام خوارزمية التعلم 
الخاضع للإشراف. 
e‏ التعلم المعزز: التعلم المعزز هو أسلوب يوفر تغذية راجعة تعليمية باستخدام آلية 
المكافأة. تحدث عملية التعلم كعامل يتفاعل مع El‏ ويحاول طرقا مختلفة لتحقيق 
نتيجة. يتلقى الوكيل مكافأة أو عقوبة عندما يصل إلى الهدف أو لا. من خلال 
ملاحظات التعلم هذه . يتعلم الوكيل أي المواقف تؤدي إلى نتائج جيدة والتي تؤدي 
إلى الفشل ويجب تجنبها. على سبيل المثال » يمكننا استخدام التعلم المعزز عندما 
نحتاج إلى برنامج للعمل بنجاح في بيئة تنافسية » مثل لعبة الفيديو أو سوق الأوراق 
المالية. في هذه Ded‏ يبدأ البرنامج بالعمل في البيئة ويتعلم مباشرة من أخطائه حتى 


يجد مجموعة من القواعد التي تضمن نجاحه. لا يتطلب التعلم المعزز بيانات مصنفة 
بالإضافة إلى التعلم الخاضع للإشراف. بالإضافة إلى ذلك › فإنه لا يستخدم حتى 
مجموعة بيانات غير مسماة مثل التعلم غير الخاضع للإشراف. التعلم المعززء بدلاً 
من محاولة اكتشاف علاقة في مجموعة بيانات » يتم تحسينه باستمرار بين نتائج 
تجارب الفرد السابقة وكذلك إنشاء تجارب جديدة. بمعنى ST‏ فإنه ينشئ 
مجموعات بيانات جديدة ونتائج مع كل جهد. 
التعلم الخاضع للاشراف مهم جد جد في ple‏ البيانات » لأنه يسمح UJ‏ بالقيام بما يتوق إليه 
الجنس البشري: التنبق. التنبؤ مفيدة جد في الأعمال التجارية وللربح c‏ وهي تمكننا من القيام 
بأفضل ما فى وسعنا » لأننا من خلال التنبؤ نعرف النتيجة المحتملة GY‏ موقف. 
قد يبدو التعلم الخاضع للاشراف بمثابة سحر للبعض. ومع ذلك e‏ فإن التعلم الخاضع 
للإشراف ليس سحراً بأي حال من الأحوال. بدلا من ذلك e‏ يساعد التعلم الخاضع للاشراف على 
أساس الإنجازات البشرية في الرياضيات والإحصاء وباستخدام الخبرات والملاحظات البشرية 
وتحويلها إلى تنبؤات دقيقة بطريقة لا يستطيع أي عقل بشري القيام بها. 
من أجل القيام بذلك c‏ من المهم جد الحصول على أمثلة من الماضي يمكننا من خلالها استنباط 
لماذا تعلم الالة؟ 
كمية البيانات المتاحة لنا تتزايد باستمرار. تستخدم الآلات هذه البيانات للتعلم وتحسين النتائج 
وتزويدنا بها. يمكن أن تكون هذه النتائج مفيدة للغاية في تقديم رؤى قيمة وكذلك اتخاذ قرارات 
تجارية مستنيرة. يتطور التعلم الآلي باستمرار ٠‏ ونتيجة لذلك e‏ تنمو تطبيقات التعلم الآلي Lai‏ 
نحن نستخدم التعلم الآلي أكثر مما نعرفه في حياتنا اليومية. لقد دخل التعلم الآلي في حياتنا 
اليومية » حتى بدون أن ندرك ذلك. لقد مكنت خوارزميات التعلم الآلي العالم من حولنا. ويمكن 
القول أن المستقبل هنا بالفعل . ويلعب التعلم الآلي دورًا مهما في تشكيل أفكارنا المعاصرة. 
اليوم . يحظى التعلم الآلي JS‏ الاهتمام الذي يحتاجه. يمكن أن يؤدي التعلم الآلي العديد من 
المهام «USUS‏ خاصة تلك التي لا يمكن إلا للبشر القيام بها بذكائهم الفطري. لا يمكن إعادة 
إنتاج هذا الذكاء في الآلات إلا بمساعدة التعلم الآلي. 
بمساعدة التعلم JY‏ يمكن للشركات أتمتة المهام الروتينية. كما أنه يساعد على أتمتة وإنشاء 
نماذج لتحليل البيانات. تعتمد الصناعات المختلفة على كميات كبيرة من البيانات لتحسين أدائها 
واتخاذ قرارات ذكية. يساعد التعلم الآلي على إنشاء نماذج يمكنها معالجة وتحليل كميات كبيرة 
من البيانات المعقدة وتقديم نتائج دقيقة. هذه النماذج دقيقة وقابلة للتطوير وتعمل بوظيفة ذات 


وقت أقل. من خلال بناء مثل هذه النماذج الدقيقة للتعلم الآلي » يمكن للشركات الاستفادة من 
الفرص المربحة وتجنب المخاطر غير المعروفة. 

يتم استخدام التعرف على الصور وتوليد النص وتصنيف النص وتشخيص الأمراض وغيرها 
الكثير في العالم الحقيقي. ومن ثم ٠‏ فإنه يزيد المجال لخبراء التعلم الآلي للتألق كمحترفين. 
بالإضافة إلى ذلك v‏ تتخلف العديد من الشركات في مجال التكنولوجيا بسبب الوتيرة السريعة 
للقفزات التقنية. يعد التحول الرقمى صناعة ضخمة . وحقيقة الأمر هى أنه لا يوجد sae‏ كاف 
من خبراء التعلم الآلي لتلبية ere‏ الصناعة الجديدة. l l‏ 

إذا كنت ترغب في الارتقاء بحياتك المهنية إلى المستوى التالي » فيمكن للتعلم الآلي أن يفعل 
ذلك SLs‏ عنك. إذا كنت تتطلع إلى الانخراط في شيء يجعلك جزءًا من شيء عالمي ومعاصر e‏ 
فيمكن للتعلم الآلي أن يفعل ذلك من أجلك. 
العلاقة بين تعلم الآلة وعلم البيانات 
يمكن أن يوفر التعلم الآلي رؤى قيمة فقط إذا تلقى بيانات جيدة. وبالتالي » بدون استخدام بيانات 
نظيفة ومتسقة وعالية الجودة c‏ يمكن إنشاء رؤى ذات مغزى كمي (إن وجدت). في الوقت نفسه. 
يحتاج عالم البيانات إلى التعلم J‏ لأنه يكاد يكون من المستحيل فهم نتائج الكمية الهائلة 
من البيانات المعقدة التى تمتلكها المؤسسات والتنبؤ بها بدقة. 

بجی lle panty l‏ ااه row Cas‏ حجان كرفي era‏ الأعنال الات ناجحة 
وأين يمكن تحسينها . وما هي الخيارات الممكنة لتحقيق هذه النتيجة. يمكن اعتبار التعلم IY‏ 
بمثابة إحصاء عملي للقيام بذلك. بمعنى آخر » التعلم JW‏ هو تكامل علوم الكمبيوتر 
والتخصصات الرياضية المختلفة التي تستخدم فيها مفاهيم علوم الكمبيوتر لبناء نماذج رياضية 
قوية يمكنها حل مجموعة من المشكلات المتشابهة وذات الصلة. 

يهتم علماء البيانات بضمان أن نموذج التعلم SY‏ يحقق أهداف المشروع. هذا هو المكان 
الذي تكون فيه مجموعة مهارات العمل في متناول اليد. للنجاح في تطوير نموذج التعلم IM‏ 
يجب أن يكون لدى عالم البيانات فهم معقول للمشكلة المطروحة وأهداف المشروع. بدون هذاء 
هناك فرصة ضثيلة للنجاح GV‏ برنامج علم البيانات ونموذج التعلم الآلي. في هذا الصدد . يقضي 
ما يقرب من 80/ من وقت عالم البيانات في استكشاف البيانات وتنظيفها وإعدادها. القيام 
بذلك بشكل صحيح هو جزء أساسي من العملية. بمجرد الانتهاء . يمكن لعالم البيانات البدء في 
تطوير نموذج التعلم الآلي. يمكنهم اختبار ومقارنة النماذج المختلفة ثم تحسين المرشح الواعد 
لبيئة الإنتاج. 

واحدة من أكثر الطرق فعالية لمراقبة قبول هذه النماذج هي من خلال التمثيل المرئي للبيانات. 
يتيح تقديم تقرير بالبيانات لقادة الأعمال اتخاذ قرارات مستنيرة يمكن أن تفيد المنظمة. بصرف 


النظر عن توفير البيانات » ربما يكون هذا التمثيل المرئي للبيانات هو pal‏ خطوة في المساعدة 
وبالتالي » في حين أن نماذج التعلم JW‏ مهمة . فإن نجاحها يعتمد بشكل كبير على قدرة 
فريق البيانات على فهم البيانات المنظمة وتوفيرها بمعلومات ممتازة تسمح للنموذج بعمل 
تنبؤات دقيقة. 
علم البيانات والتعلم JW‏ مترابطان وأساسيان لنجاح أي مؤسسة قائمة على البيانات. ومع 
ذلك . كل هذا يتوقف على جودة البيانات المستخدمة. 
عن الكتاب 
يتكون الكتاب الحالي من جزئين: المقدمة والتعلم SW‏ « ويتكون من 9 فصول. توجد معظم 
محتويات الكتاب الرئيسية والمهمة في الجزء الثاني. UU‏ إذاكنت معتادًا على مفاهيم البرمجة 
ومعالجة البيانات » فإن الجزء الأول من الكتاب غير مناسب لك ويمكنك تخطى هذا الجزء 
والدخول إلى قسم التعلم الآلي مباشرة. 
القراء المستهدفين 
يمكن اعتبار هذا الكتاب بمثابة مقرر دراسي اختياري لطلاب السنة النهائية الجامعيين وكتاب 
يمكن af‏ رن هذا كعاب Mec argos! nnd Di Una Cag!‏ وغل i cb‏ 
الباحثين فى مختلف المجالات إلى الأطباء. 
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الفصل الثالت: الليانان 
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ما هو ale‏ البيانات؟ 
= العلاقة بين ale‏ البيانات والذكاء الاصطناعى والبيانات 
الضخمة. 


" الفرق بين محلل البيانات ومهندس وعالم البيانات. 
" التعرف على المهارات اللازمة لتصبح عالم بيانات. 
" أهمية ale‏ البيانات وتطبيقه. 


الفصل الاول: علم البيانات 


ما هو علم البيانات؟ 


في القرن الماضي . كان النفط يعتبر بمثابة الذهب الأسود . ومع الثورة الصناعية وظهور صناعة 
السيارات » أصبح النفط القوة الدافعة الرئيسية للحضارة الإنسانية. ومع ذلك . مع مرور الوقت › 
انخفضت قيمتها بسبب توافر مصادر الطاقة المتجددة البديلة. في القرن الحادي والعشرين › 
القوة الدافعة الجديدة هى البيانات والتى تؤثر على الصناعات. تظهر هذه البيانات وتحيط JS‏ 
حاف هن dpa‏ كل ما Me a cro iig d d‏ الميا زات eda‏ الياثات x d aad‏ 
وسلامة سياراتهم. 

اليوم » يمكن اعتبار علم البيانات بمثابة القوة الكهربائية التي تمنح القوة للصناعات وقد 
أحدثت ثورة كبيرة في جميع الصناعات تقريبًا. تحتاج الصناعات إلى البيانات لتحسين أدائها 
وزيادة نمو أعمالها وتقديم منتجات أفضل لعملائها. ومع ذلك e‏ بينما تعتمد معظم المؤسسات 
على البيانات لتوجيه قرارات الأعمال » فإن البيانات وحدها ليست الهدف. إذا تعذر الحصول 
على الأفكار القيمة التي تؤدي إلى إجراءات أكثر استنارة e‏ فإن الحقاتق والأرقام لا معنى Ag‏ 

يتطور علم البيانات كمسار وظيفي واعد. كما قد تكون سمعت ٠‏ أدخلت جامعة هارفارد 
المهنة الرائعة للقرن الحادي والعشرين كعالم بيانات. علم البيانات هو مستقبل الذكاء الاصطناعي 
ومستقبل الذكاء المهني. أصبحت الصناعات تعتمد على البيانات وتحتاج إلى علماء بيانات 
لمساعدتها على اتخاذ قرارات أكثر ذكاءً وإنشاء منتجات مهمة. في عالم اليوم أيضًا » أصبحت 
الحاجة إلى معرفة البيانات أمرًا ضروريًا. نحتاج أن نتعلم كيف يمكن تحويل البيانات الأولية إلى 
منتجات ذات مغزى. نحن بحاجة إلى تعلم التقنيات وفهم متطلبات تحليل الرؤى من البيانات. 
البيانات لديها إمكانات غير مستغلة يجب تحقيقها من أجل تطوير منتجات مفيدة. مع ظهور 
تقنيات التعلم الآلي والتعلم العميق c‏ أصبح التنبؤ بالبيانات الذكية وتصنيفها ممكنا. 

البيانات الضخمة وعلم البيانات هي مفتاح المستقبل. لذلك من المهم جد معرفة ما هو علم 
البيانات وكيف يمكن أن يؤثر على أعمالنا والبيئة من Wye‏ نحن بحاجة إلى أن نكون 
ديناميكيين» وأن نعمل مع التكنولوجيا ونتقدم إلى الأمام ونتعلم علم البيانات قبل فوات الأوان. 


علم البيانات هو مجال بحث يكتشف من خلال مجموعةً من الأدوات والخوارزميات ومبادئ التعلم الآلى المختلفهٌ والتنقيب عن 


النصوص والرياضيات والإحصاءات عن الأنماط Quà Sall‏ للبيانات ME‏ 
العاملين في مجال علم البيانات » من خلال تطبيق خوارزميات التعلم الآلي والرياضيات 
والإحصاءات على أنواع مختلفة من البيانات » يحاولون بناء نظام ذكاء اصطناعي لأداء المهام 
التي تتطلب Bole‏ ذكاءً بشريًا » أو لتقسيم المشكلات المعقدة إلى مشاكل أصغر لاكتساب الأفكار 
والمعرفة منها. فى المقابل c‏ تولد هذه الأنظمة رؤية تلعب دورًا مهما للغاية فى تعزيز أهداف 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


المحللين والمستخدمين التجاريين. باختصار » الغرض من علم البيانات هو شرح العمليات من 
خلال البيانات الموجودة. من المتوقع أن يكون هذا التفسير دقيقا بما يكفي لعمل تنبؤات. الهدف 
النهائي من هذه التفسيرات والتوضيحات هو اتخاذ قرارات مستنيرة Fly‏ على المعرفة المستخرجة 
من هذه البيانات. 


ما هى البيانات الضخمة؟ 


البيانات هي أساس علم البيانات ؛ البيانات هي المكونات الرئيسية التي تستند إليها جميع 
التحليلات. في مجال علم البيانات . يمكن تقسيم هذه البيانات إلى مجموعتين: البيانات 
التقليدية والبيانات الضخمة. 

تشير البيانات التقليدية إلى البيانات المخزنة في قواعد البيانات التي يمكن للمحللين إدارتها 
على جهاز الكمبيوتر. هذه البيانات في شكل جدول يحتوي على قيم عددية أو نصية. بالطبع › 
مصطلح "تقليدي" هو ما نستخدمه في أغلب الأحيان للتمييز بشكل أفضل بين البيانات الضخمة 
وأنواع البيانات الأخرى. البيانات الضخمة e‏ من ناحية أخرى . هي بيانات ST‏ من البيانات 
التقليدية وعادة ما يتم توزيعها عبر شبكة واسعة من أجهزة الكمبيوتر. 


البيانات الضخمة 


تشير البيانات Aail‏ إلى مجموعه بيانات هيكليهَ معقد ة و غير dabis‏ وذات ppa‏ كبيريتم إنشاؤها Qc ju;‏ من Ac gars‏ 


dc go‏ من المصاد ر» مما يزيد من التبصرو اتخاذ القرار. 


تشير البيانات الضخمة إلى مجموعة كبيرة من البيانات غير المتجانسة التي يتم الحصول 
عليها من مجموعة متنوعة من المصادر وتتضمن أنواعا مختلفة من البيانات على النحو التالي: 


© البيانات غير المهيكلة: الشبكات الاجتماعية . ورسائل البريد الإلكترونى‎ e 
الجرل ر مات الريب‎ colas (المدوفات « والتكريد كام والضو و ارقت‎ 
إلخ.‎ 

e‏ شبه المنظمة: ملفات KML‏ . ملفات نصية ‏ إلخ. 

٠ه‏ البيانات المهيكلة: قواعد البيانات والتنسيقات المهيكلة الأخرى. 


البيانات الضخمة هي في الأساس تطبيق خاص لعلم البيانات حيث تكون مجموعة البيانات 
كبيرة جدا وتحتاج إلى التغلب على التحديات المنطقية لمواجهتها. علم البيانات هو نهج علمي 
يطبق الأفكار الخوارزمية والحاسوبية والحوسبية لمعالجة هذه البيانات الضخمة. 

بشكل ple‏ الشاغل الرئيسي للبيانات الضخمة هو التخزين والاستخراج والمعالجة والتحليل 
في هذه المجموعة الضخمة من البيانات. غالبا ما يتعذر معالجة وتحليل مجموعة البيانات الكبيرة 


هذه بسبب القيود الحسابية. لذلك . يتطلب أساليب وأدوات خاصة . مثل الخوارزميات 
والبرمجيات والبرمجة المتوازية » إلخ. 
الفرق بين علم البيانات والبيانات الضخمة 
المدرجة أدناه هي الاختلافات بين علم البيانات والبيانات الضخمة: 
o"‏ تحتاج المؤسسات إلى البيانات الضخمة لتحسين أدائها وزيادة نمو أعمالها وتقديم منتجات أفضل 
لعملائها. بينما يوفر علم البيانات أساليب وآليات لفهم واستغلال إمكانات البيانات الضخمة في 
الوقت المناسب. 
or‏ في الوقت الحاضر Y.‏ يوجد حد لكمية البيانات القيمة التي يمكن جمعها للمنظمات. لكن علم 
البيانات ضروري لاستخدام كل هذه البيانات لاستخراج معلومات ذات مغزى لاتخاذ قرارات 
n‏ من الواضح أن علم البيانات يستخدم مناهج نظرية وعملية لاستكشاف معلومات البيانات الضخمة 
والتى تلعب دورًا مهما فى استغلال إمكانات البيانات الضخمة. يمكن اعتبار البيانات الضخمة على 
kel‏ من ا من البيانات غير الصالحة . إلا إذا تم تحليلها بالاستدلال الاستنباطي والاستقرائي. 
* يرتبط تحليل البيانات الضخمة بالتنقيب في البيانات. لكن علم البيانات يستخدم خوارزميات 
التعلم JY‏ لتصميم وتطوير النماذج الإحصائية لتوليد المعرفة بكميات كبيرة من البيانات الضخمة. 


من الاختلافات المذكورة أعلاه بين البيانات الضخمة وعلم البيانات . قد يكون من الواضح أن 
علم البيانات مدرج في مفهوم البيانات الضخمة. يلعب علم البيانات دورًا مهما في العديد من 
المجالات التطبيقية. يعمل علم البيانات على البيانات الضخمة للحصول على نتائج مفيدة من 
خلال التحليل التنبئي » حيث يتم استخدام النتائج لاتخاذ قرارات ذكية. 

يمكن فهم الفرق الأساسي بين البيانات الضخمة وعلم البيانات بشكل أفضل من خلال إعطاء 
مثال. ele‏ البيانات مثل كتاب يمكنك من JIE‏ إيجاد حل لمشاكلك. من ناحية أخرى . يمكن 
اعتبار البيانات الضخمة مكتبة كبيرة حيث توجد جميع الإجابات على أسئلتك » ولكن من الصعب 
العثور على إجابات لأسئلتك. 


لماذا نتعلم ale‏ البيانات؟ 


نحن نعيش في أكثر الأوقات إثارةفي تاريخ البشرية. الفترة التي أصبحت فيها البيانات سلعة أكثر 
قيمة من النفط والذهب. إن كمية البيانات التي يتم إنتاجها Galle‏ غير مسبوقة ومن المتوقع أن 
تستمر مع نمو سكان العالم وزيادة إمكانية الوصول إلى الإنترنت. 

هذه البيانات التي تم إنشاؤها هي مصدر قيم للغاية وهي dele‏ فك تشفيرها. أيضًاء كانت 
هناك تغييرات واسعة النطاقني نمط سلوك العملاءفي التسوق عبر emi Sl‏ والاستثمارفي سوق 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الأوراق الماليةء وما إلى AUS‏ وكل منها يتطلب الحاجة إلى تحليل عميق للبيانات. هذا هو 
المكان الذي يلعب فيه علم البيانات ويطلبه الشركات والمؤسسات وما إلى ذلك. 


تحليل البيانات هو عملية جمع ونمذجة وتحليل البيانات لاستخراج الأفكار المفيدةفي صنع 
القرار. Gls‏ على الشخص المسؤول عن هذه التحليلات محلل البيانات. يستخرج محلل 
البيانات البيانات من خلال عدة طرق» مثل تنظيف البيانات وتحويل البيانات ونمذجة البيانات. 
هناك عدة طرق وأساليب للتحليل» حسب الصناعة والغرض. يسمح تحليل البيانات للصناعات 
بمعالجة الاستفسارات بسرعة وتحقيق نتائج عملية مطلوبةفي فترة زمنية قصيرة. 
يمكن لمحللى البيانات. بغض النظر عن الصناعة (UI‏ يعملون lass‏ قضاء وقتهم فى 
تطوير أنظمة لجمع GUL!‏ وجمع نتائجهم فى تقارير يمكن أن تساعد شركاتهم على 
النمو والتحسين. 


يمكن yl‏ يشارك محللو البيانات فى sja sÍ‏ من عملية التحليل. بصفتك محلل بيانات. 
يمكنك المشاركة فی كل شىء lew‏ من إعداد نظام تحليلات إلى تقديم رؤى UJ‏ على 
البيانات GUI‏ تجمعها. قد يطلب منك تدريب الآخرين فى نظام جمع البيانات الخاص بك. 


على الرغم من أن علم البيانات وتحليل البيانات قد يأتي من مجال إحصائي مشترك . إلا أن 
خرائطهم وجذورهم مختلفة. ومع ذلك » يعتقد معظم الناس أن علم البيانات وتحليل البيانات 

متشابهان. من أجل فهم اختلافاتهم » يجب علينا تقييمهم. بعض هذه الاختلافات مذكورة أدناه: 

c‏ يتمثل الاختلاف الرئيسي الأول بين عالم البيانات ومحلل البيانات في أنه بينما foley‏ محلل 
البيانات مع حل المشكلات c‏ يحدد عالم البيانات المشكلات ثم يحلها. يتم توظيف محللي 
البيانات من قبل الشركات لحل مشاكلهم التجارية. يتمثل دور محلل البيانات في العثور 
على اتجاهات مبيعات أفضل أو استخدام إحصاءات موجزة لوصف معاملات العملاء. من 
dot‏ أخرى Ye‏ يحل عالم البيانات المشكلات والقضايا فحسب . بل يحدد أيضًا 
المشكلات في المقام الأول. 

* لا يحتاج محللو البيانات إلى مهارات الاتصال أو الفطنة التجارية. محلل البيانات يقتصر 
على حدود تحليل البيانات. ليست هناك حاجة لإيصال النتائج إلى الفريق ومساعدتهم على 
اتخاذ قرارات قائمة على البيانات. ومع ذلك . يجب أن يكون لدى عالم البيانات مهارات 
في سرد القصص ومهارات الإدارة من أجل ترجمة النتائج التي توصل إليها إلى استراتيجيات 
الأعمال. لذلك . يلعب عالم البيانات دورًا loge‏ في عملية صنع القرار في الشركة. 

هناك اختلاف آخر بين عالم البيانات ومحلل البيانات وهو الاختلاف في معالجة البيانات. 
يستخدم محللو البيانات استعلامات SQL‏ لاسترداد البيانات المنظمة وإدارتها. في المقابلء 


يستخدم علماء البيانات .7105001 للبيانات غير المهيكلة. لذلك OB e‏ علماء البيانات 
مسؤولون عن إدارة كل من أنواع البيانات غير المهيكلة والمنظمة. 

n‏ لايتعامل محلل البيانات مع تطوير النمذجة التنبؤية أو الأدوات الإحصائية للتنبؤ بالبيانات. 
ومع ذلك e‏ يحتاج علماء البيانات إلى معرفة التعلم الآلي لبناء نماذج تنبؤ قوية. نماذج التنبؤ 
هذه هي نماذج التوقع والتصنيف. 

= يحتاج علماء البيانات إلى تعديل نماذج البيانات LEY‏ منتجات بيانات بشكل أفضل. 
يتطلب أيضًا تحسين أداء نماذج التعلم الآلي. هذا غير مطلوب من قبل محللي البيانات. 
shy‏ لا يقتصر دور عالم البيانات على ely‏ النماذج فحسب. بل يشمل أيضًا إعدادها 
وصيانتها. 


يتداخل تحليل البيانات وعلوم البيانات بشكل كبير مع بعضهما البعض وفى نفس الوقت 
يختلفان تمامًا عن بعضهما البعض. يكون تركيز محللو البيانات Wil‏ . بينما يتنبا علماء البيانات 


غالبًا ما يكون محللو البيانات علماء بيانات ذوى مستوى منخفض يقضون معظم وقتهم 


فى تحليل البيانات وتقديم الاقتراحات. ومع ذلك . فهم oale‏ لا ygaliay‏ إلى إنشاء برامج تقنية 
وخوارزميات التعلم الآلى. هذا لأن محللى البيانات . على عكس علماء البيانات . ليس لديهم علاقة 
كبيرة بالتحليلات التنبؤية. pal‏ يعملون &o‏ البيانات الموجودة ويقدمون lailo‏ لمجموعة 
متنوعة من تفاصيل أداء الشركة. 


المسؤوليات الرئيسية لمحلل البيانات 


SEY!‏ على السؤال BL"‏ يفعل محلل البيانات؟" سيختلف اعتمادًا على المنظمة ومدى اتخاذ 
القرارات المستندة إلى البيانات من قبل الشركة. ومع ذلك » فإن مسؤوليات محلل البيانات تشمل 
عادة ما يلي: 
o‏ تطوير وتنفيذ قواعد البيانات وأنظمة جمع البيانات والاستراتيجيات الأخرى التي تعمل 
على تحسين الكفاءة والجودة الإحصائية. 
e‏ استخراج البيانات من المصادر الأولية والثانوية » ثم أعادة تنظيم البيانات في تنسيق 
يمكن قراءته بسهولة بواسطة البشر أو الآلات. 
e‏ استخدام الأدوات الإحصائية لتفسير مجموعات البيانات e‏ مع إيلاء اهتمام خاص 
للاتجاهات" والأنماط التي يمكن أن تكون ذات قيمة في التشخيص والتحليل التنبئي. 
٠‏ التعاون مع المبرمجين والمهندسين والقادة التنظيميين لتحديد فرص تحسين العملية 
واقتراح تعديلات على النظام وتطوير سياسات إدارة البيانات. 


1 Trends 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


e‏ تقديم الوثائق المناسبة التي تسمح لأصحاب المصلحة بفهم خطوات عملية تحليل 
البيانات وتكرار التحليل إذا لزم الأمر. 


أنواع تحليل البيانات 


يعد تحليل البيانات أداة أساسية لتحسين الأداء العام CY‏ شركة أو مؤسسة. من خلال تنفيذ بعض 
تحليلات البيانات في نماذج أعمالها « من المرجح أن تكون الشركات قادرة على اتخاذ قرارات 
أفضل وتحسين عملياتها وتقليل تكاليفها. هناك أربعة أنواع من تحليل البيانات تنطبق على جميع 
الصناعات. ولكن ما هو أفضل نوع من نماذج تحليل البيانات لأي شركة أو مؤسسة؟ 

بينما نقسم هذه الأقسام إلى فئات منفصلة » فجميعها مترابطة ومتصلة ببعضها البعض. تنقسم 
طرق التحليل إلى أربع فتات رئيسية حسب درجة التعقيد: التحليل الوصفي والتشخيصي والتنبؤي 
والتوجيهي. كلما انتقلت من الأبسط إلى الأكثر تعقيدا e‏ تزداد الصعوبة والموارد المطلوبة » 
وكذلك مستوى البصيرة. 
التحليل الوصفى '- ماذا as‏ 


التحليل الوصفي هو الخطوة الأولى والأكثر شيوعًا والأبسط في إجراء أي عملية تحليل إحصائي. 
dif‏ ننه جر sette‏ اسان ماذا حدث؟ voii s‏ فإنه يفحص d Ges‏ جات فى 
الماضي: الإيرادات الشهرية » ومبيعات الأشهر الستة الماضية e‏ والزيارات السنوية لموقع الويب» 
وما إلى ذلك. يتم ذلك عن طريق تلخيص البيانات السابقة وبناء وتفسير البيانات الأولية من 
مصادر مختلفة لتحويلها إلى رؤى قيمة. يوضح لنا هذا التحليل كيفية توزيع البيانات . ويساعد 
في تحديد المكبات . ويمكننا من تحديد العلاقة بين المتغيرات e‏ وبالتالي إعداد البيانات لمزيد 
من التحليل الإحصائي. 

كيف يمكن أن يساعد التحليل الوصفي في العالم الحقيقي؟ على سبيل المثال » في أحد أقسام 
الرعاية الصحية i‏ ينص على أنه يتم إدخال عدد كبير من الأشخاص إلى BS‏ الطوارئ في فترة 
زمنية قصيرة. يخبرك التحليل الوصفي أن هذا يحدث ويوفر بيانات فورية” مع جميع الإحصائيات 
col‏ الصلة (تاريخ الحدوث » والحجم c‏ وتفاصيل المريض c‏ وما إلى ذلك). 

التحليل الوصفى W aowy ai «59 uà‏ بتقديم بياناتنا بطريقة هادفة. ومع «Ja‏ تجدر 


الإشارة إلى أن هذا التحليل وحده لن يسمح لك بالتنبؤ بالنتائج المستقبلية أو الإجابة على أسئلة 


Jio‏ سبب حدوث شىء lo‏ ولكن يتم تنظيم بياناتک وتحويلها بواسطة مجموعات البيانات. 
فهى ojala‏ لإجراء المزيد من التحليل. وعادة Lo‏ يقوم Alay‏ عن طريق تلخيص وإبراز الميزات 


1 Descriptive Analysis 


? Real-time 


الفصل الاول: علم البيانات 


الرئيسية المفضلة WY‏ بالإضافة إلى استخدام المخططات وغيرها من العروض سهلة 


الاستخدام. 


الجانب السلبى هو أن التحليل الوصفى يسلط الضوء على ظاهرة دون أن يشرح بالضبط سبب 
حدوتها. لهذا السبب. يجب LoJla‏ دمج هذا النهج مع التحليلات الأخرى للحصول على الفوائد 


التحليل التشخيصى' - لماذا Gas‏ هذا 


التحليل التشخيصي» الذي يشار إليه غالبًا باسم تحليل السبب الجذري” » هو نوع متقدم من 
التحليل يتقدم خطوة أخرى إلى البيانات أو المحتوى للإجابة على السؤال "لماذا حدث هذا؟". 
يتميز التحليل التشخيصى بأساليب مثل التنقيب عن البيانات والارتباط» ويلقى نظرة Goel‏ على 
البيانات لفهم أسباب الأحداث والسلوكيات» مما يسمح لك بفهم معلوماتك os‏ أكبر والإجابة 
على الأسئلة المهمة من القوى العاملة.في مثال الرعاية الصحية المذكور سابقاء يفحص التحليل 
التشخيصي البيانات ويجعل العلاقات المتبادلة. على سبيل Soll‏ قد يساعدفي تحديد ما إذا 
كانت جميع أعراض المريض: "ارتفاعفي درجة iy) pall‏ وسعال جاف» وإرهاق" تشير إلى عامل 
معدي. الآن لديك تفسير للزيادة المفاجئةني الحجمفي غرفة الطوارئ. 

مفتاح نجاح هذا النهج هو الوصول إلى البيانات على نطاق واسع. مثلا التحليل الوصفيء 
يتطلب التحليل التشخيصى بيانات "داخلية" able‏ ولكن بخلاف التحليل السابق WE‏ ما 
Ln‏ الل م لات غا ta‏ مجموعة وا مو Bosco laa‏ 
بالتفصيل. على سبيل المثال» قد تجد أن إيرادات موقع الويب الخاص بك قد انخفضتف الربع 
الآخير. يمكن أن يكون هذا متعلقا بخفض تكاليف WEY‏ بالإضافة إلى التغييراتفي خوارزمية 
.Google‏ للعثور على أدلة لهذه العملية» من الضروري تحديد البيانات من مصادر مختلفة مثل 
السجلات الجديدة وغيرها للعثور على نمط مشبوه. 


التحليل iil‏ "- ماذا سيحدث 


يحدد التحليل التنبئي النتائج المحتملة من خلال تحديد الميولني التحليلات التشخيصية 
والوصفية. يأخذ التحليل التنبئي البيانات السابقة ويغديهاني نموذج التعلم الآلي الذي BEL‏ 
الاعتبار الأنماط الرئيسية. ثم يتم تطبيق النموذج على البيانات الحالية للتنبؤ بما سيحدث. هذا 
يسمح للمنظمة لاتخاذ إجراءات وقائية. على سبيل المثال» مثل الاتصال بعميل من غير المرجح 
أن يجدد عقده.في المستشفى التي ذكرناهاء قد Ly‏ التحليل التنبئي بزيادة عدد المرضى الداخليين 


! Descriptive Analysis 
? Root cause analysis 


? Predictive Analysis 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


في قسم الطوارئ خلال الأسابيع القليلة القادمة. Fly‏ على الأنماط الموجودةفي البيانات ينتشر 
المرض بسرعة. 
التحليل التوجيهى '- ما هى الإجراءات التى يجب اتخاذها 
التحليل التوجيهي هي عملية تحلل البيانات وتقدم نصائح فورية حول كيفية تحسين ممارسات 
الأعمال لتناسب العديد من النتائج المتوقعة.ني الواقع» التحليل الوصفي "يأخذ ما نعرفه 
(البيانات) i‏ ويفهم البيانات للتنبؤ بما يحدث. ويقترح أفضل الخطوات التطلعية Us‏ على 
المحاكاة el JE‏ ويحدد العواقب المحتملة لكل منها. الغرض من التحليل التوجيهي. وهو 
بالتأكيد المجموعة الأكثر تقدمّافي قائمتناء هو اقتراح طريقة عملية لتجنب المشاكل المستقبلية 
أو لتحقيق أقصى استفادة من عملية واعدة. 

يرتبط التحليل التوجيهي بالتحليل الوصفي والتنبؤي. بينما يسعى التحليل الوصفي إلى نمذجة 
والتنبؤ بما قد يحدث من خلال توفير نظرة ثاقبة لما حدث والتحليل التنبئي. يسعى التحليل 
التوجيهى إلى تحديد الأفضلء G3‏ للمعايير المعروفة. يكون الحل أو النتيجة من بين الخيارات 
PETAT‏ 

يمكن أن يقترح التحليل التوجيهي Cal‏ خيارات اتخاذ القرار بشأن كيفية الاستفادة من فرصة 
مستقبلية أو تقليل المخاطر المستقبلية» وإظهار عواقب كل خيار من خيارات اتخاذ القرار.في 
الممارسة العمليةء يمكن للتحليل التوجيهي معالجة البيانات الجديدة بشكل مستمر وتلقائي 
لتحسين Bo‏ التنبؤ وتوفير خيارات أفضل لصنع القرار. دعنا نعود إلى المستشفى» على سبيل 
المثال: الآن بعد أن عرفت أن المرض ينتشرء قد تشير أدوات التحليل التوجيهي إلى زيادة ade‏ 
الموظفين من أجل العلاج الفعال للمرضى. 


التحليل التوجيهى هو تطور طبيعى لأساليب التحليل الوصفى والتنبؤى. ويذهب خطوة 
أخرى إلى الأمام لإزالة التخمين" من تحليل البيانات. كما أنه يوفر الوقت لعلماء البيانات 
والمسوقين الذين يحاولون فهم Lo‏ تعنيه بياناتهم وأين يمكن توصيلها لتوفير تجربة 


„JoL Annio paiio 
تستخدم المنظمات المستقبلية مجموعة متنوعة من التحليلات لاتخاذ قرارات ذكية‎ 
تساعد الشركات أو تنقذ الأرواح فى المستشفى المذكورة.‎ 


1 Prescriptive Analysis 


2 Guesswork 


تتكون دورة حياة علم البيانات من خمس مراحل. علماء البيانات الفعالون هم أولئك الذين 
يمكنهم أداء أي من هذه المراحل. هذه الخطوات الخمس هي على النحو التالي: 


المرحلة الاولى: جمع البيانات 

كما يوحي الاسم. هذا هو المكان الذي يتم فيه جمع البيانات. ينشئ المستخدمون ملايين 
البيانات كل يوم. يتم إضافة كل رابط يتم النقر عليه وإجراء بحث وتحميل صورة وإرسال 
رسالة إلى مستودع البيانات. على هذا النحوء فإن عملية جمع البيانات ليست سهلة. يجب 
تحديد البيانات ذات الصلة بالمشروع. هناك أيضًا مهمة تحديد موقع جمع البيانات. تتوفر 
أنواع مختلفة من مصادر البيانات عبر الإنترنت من خلال المواقع الإخبارية واستطلاعات 
الرأي وما إلى ذلك على الموقع ووسائل التواصل الاجتماعي. 

المرحلة الثانية: تنظيف البيانات 

من المهم معرفة أن البيانات التي تم جمعهافي المرحلة الأولى غير منظمة. يجب على عالم 
البيانات تنقية البيانات الخام وتصنيفها. هذا يعني البحث عن أي تناقضات (بيانات مكررة 
بيانات BLE‏ إلخ)في البيانات من أجل تجنب أي أخطاءني الخطوات التالية. بسبب المهام 
التي يتم تنفيذهاء عادة ما تكون المرحلة الثانية هي الجزء الذي يستغرق وقنًا Db gh‏ مشروع 
quee‏ 

المرحلة الثالثة: تنقيب البيانات 

يبدأ التحليل بعد تنظيف مجموعة البيانات. يقوم علماء البيانات بفحص البيانات للحصول 
على فكرة أوسع عن الأنماط والاتجاهات الرئيسيةفي مجموعة البيانات. يسيطر التمثيل 
المرئي والتحليل الإحصائي على هذه المرحلة. يسلط تنقيب البيانات الضوء على النقاط 
التي تحتاج إلى مزيد من التحليل. تسمح أدوات التمثيل المرئي للبيانات أيضًا لعلماء 
البيانات بتسجيل واستكشاف العناصر المهملة بشكل أكبر. 

المرحلة الرابعة: نمذجة البيانات 

النمذجة هي ني صميم أساليب البحثفي علوم OLLI‏ إنه فهم العلاقة بين عناصر البيانات 
وتخطيطها. من خلال نمذجة البيانات» يرى عالم SUL‏ كيف تتفاعل العناصر الأكثر 
أهمية وتتجمع معًا. هناك عدة طرق لبناء نموذج. يمكن أن تكون هذه النمذجة من خلال 


1 Life Cycle 
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أساليب التعلم الآلي أو النمذجة الإحصائية. فقط بعد النمذجة يبدأ عالم البياناتفي 
استخلاص الرؤى منها. 

* المرحلة الخامسة: تفسير البيانات 
بمجرد استخلاص رؤى ذات مغزى من البيانات» فقد حان الوقت للخطوة الأخيرةفي دورة 
حياة علم البيانات» وهي تفسير البيانات. إذا كنت تريد تنفيذ اكتشافاتك القيمة» فيجب أن 
تكون قادرًا على تقديم هذه الأفكار بطريقة جذابة ومفهومة حتى يتمكن أصحاب المصلحة 
في المشروع من فهمها بسهولة. 


عالم البيانات 


علماء البيانات هم جيل جديد من محللي البيانات الذين لديهم المهارات التقنية لحل المشكلات 
المعقدة ولديهم فضول Call‏ لاكتشاف المشكلات التي تحتاج إلى حل. تتمثل مهمة عالم 
البيانات في عمل التنبؤات الأكثر دقة. وهذا يتطلب استخدام التقنيات التحليلية المتقدمة c‏ بما 
في ذلك التعلم JV‏ والنمذجة التنبؤية. دور عالم البيانات هو مزيج من عدة أدوار فنية تقليدية . 
بما في ذلك عالم الرياضيات والإحصائي وأخصائي الكمبيوتر. لم يحظ علماء البيانات بالكثير 
من الاهتمام قبل عقد من الزمن . لكن شعبيتهم المفاجئة تعكس كيف تفكر الشركات BOW‏ 
البيانات الضخمة. لم يعد بالإمكان تجاهل الكثير من البيانات غير المهيكلة ونسيانها. هذا منجم 
ذهب افتراضى يساعد على زيادة الإيرادات. 

بدا m‏ من علماء البيانات حياتهم المهنية كإحصائيين أو محللي بيانات. ولكن مع بدء 
تطور البيانات الضخمة (وتخزين البيانات الضخمة وتقنيات المعالجة) . بدأت هذه الادوار في 
التطور. لم تعد البيانات مجرد خلفية لمعالجة تكنولوجيا المعلومات. هذه معلومات أساسية 
تتطلب التحليل والفضول الإبداعي ومهارة لترجمة الأفكار التكنولوجية المتطورة إلى طرق جديدة 
للاستفادة. 

في مجال الأعمال . يعمل علماء البيانات عادة في فرق لاستخدام البيانات الضخمة 
للمعلومات التي يمكن استخدامها للتنبؤ بسلوك العملاء وتحديد فرص الاستثمار الجديدة. في 
العديد من المؤسسات » يتم تكليف علماء البيانات أيضًا بتحديد أفضل الطرق لجمع البيانات e‏ 
باستخدام أدوات لتحليل البيانات وتفسيرها. 


يدير علماء البيانات دورة حياة البيانات بأكملهاء من التجميع والتنظيم إلى التحليل 
والتفسير. رؤيتهم عادة ما تكون استشرافية. وهذا يعنى أنهم يقومون بتقييم البيانات 


السابقة ذات Lol‏ واستخراج الأفكار GUI‏ يمكن استخدامها كأساس للتغييرات 
المحتملة فى سلوك المستهلك gi‏ الاتجاهات. هذا يسمح للمنظمات بوضع 
استراتيجيات طويلة المدى. 


مهندس الديانات 


يكون عالم البيانات الجيد جيدا مثل البيانات التي يمكنه الوصول إليها. تقوم معظم الشركات 
بتخزين بياناتها بتنسيقات مختلفةفي قواعد bly‏ وملفات نصية. هذا هو المكان الذي SL‏ فيه 
مهندسو البيانات؛ يقومون ببناء خط أنابيب يحول هذه البيانات إلى تنسيقات يمكن لعلماء 
البيانات استخدامها. مهمتهم الرئيسية هي توفير البيانات للاستخدامات التحليلية أو التشغيلية. 
يقومون بدمج البيانات وتحليلها واستخدامهاني تطبيقات التحليلات. هدفهم هو تسهيل الوصول 
إلى البيانات وتحسين الايكوسيستم للبيانات الضخمة لمؤسستهم. مهندسو البيانات لا يقلون 
أهمية عن علماء البيانات» لكنهم dole‏ ما يكونون أقل وضوحًا. 

58) وإيجاد‎ ayaa! على وجه‎ GUL! GUL! cloleg GUL! pole يستكشف‎ Lou 

بشأنهاء clisg‏ خوارزميات التعلم «JUI‏ يهتم مهندس GUL!‏ بوظيفة هذه 


الخوارزميات فى البنية التحتية للإنتاج والبنية التحتية لخطوط البيانات. وبالتالى. فإن 


مهندس GUL!‏ له دور هندسى فى فريق علوم البيانات أو gi‏ مشروع متعلق WLLL‏ 
Gun‏ يحتاج إلى إنشاء وإدارة البنية التحتية التكنولوجية لمنصة البيانات. 


دور مهندس الديانات 


يركز مهندسو البيانات على جمع البيانات وإعدادها لاستخدامها من قبل علماء البيانات 
والمحللين. يأخذ مهندسو البيانات ثلاثة أدوار رئيسية على النحو التالى: 


o"‏ خبير عام: عادة ما يعمل مهندسو البيانات المركزون بشكل عام في فرق صغيرة. قد يكونون 
أكثر مهارة من معظم مهندسي البيانات c‏ لكن لديهم معرفة أقل بهندسة النظم. يتناسب عالم 
البيانات الذي يريد أن يكون مهندسًا بشكل جيد مع دور الخبير العام. بدون مهندس بيانات e‏ 
ليس لدى المحللين وعلماء البيانات ما يحللونه. ومن ثم e‏ فإن مهندس البيانات هو عضو مهم 
في فريق علم البيانات. 

" خط أنابيب_المحور: في الشركات المتوسطة الحجم c‏ غالبا ما يعمل مهندسو البيانات 
هؤلاء C‏ إلى جنب مع علماء البيانات لتحقيق أقصى استفادة من البيانات التي يتم جمعها. 
تعد المعرفة بعلوم الكمبيوتر والأنظمة الموزعة al‏ ضروريًا للمهندسين المعتمدين على 
خطوط الأنابيب لإجراء مثل هذه التحليلات. 

= قاعدة البيانات المحور: مهندسو البيانات هؤلاء مسؤولون عن تنفيذ delg‏ بيانات 
التحليلات وصيانتها وتجميعها. يوجد هذا الدور عادة في الشركات الكبرى حيث يتم توزيع 
البيانات عبر قواعد بيانات متعددة. إدارة تدفق البيانات هي وظيفة بدوام كامل » ويركز مهندسو 
البيانات في هذا الدور بالكامل على تحليلات قاعدة البيانات. بصفتك مهندسًا يعتمد على 
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قاعدة البيانات » يجب أن تعمل على قواعد بيانات متعددة وأن تطور جداول بيانات فى قاعدة 
بيانات. 


المجالات والمهارات الأساسية للدراسة فى ale‏ البيانات 


علم البيانات هو مصطلح واسع يتطلب الكفاءة فى مختلف المجالات لإتقانها. المدرجة أدناه 
هي بعض المجالات والجوانب الرئيسية اللازمة لإتقان علم البيانات: 


تعلم الآلة 

بالنسبة لعالم البيانات » يعد تعلم الآلة مهارة أساسية. تتمثل الفكرة الأساسية للتعلم الآلي في 
السماح للآلات بالتعلم بشكل مستقل باستخدام AES‏ البيانات التي يتم تغذيتها بالجهاز 
كمدخلات. مع تقدم التكنولوجيا » يتم تدريب الآلات على التصرف مثل البشر في القدرة على 
اتخاذ القرار. 

التعلم العميق 

غالبا ما يستخدم التعلم العميق في علم البيانات. لأنها تعمل بشكل أفضل بكثير من طرق التعلم 
الآلي التقليدية. بالمقارنة مع التعلم الآلي مع التعلم العميق » يمكن القول أنه بينما يستخرج التعلم 
العميق الميزات BUG‏ من بنية البيانات » يجب أن يتم ذلك Code‏ عن طريق التعلم الآلي « وإذا 
كان يقوم بتنبؤات غير صحيحة في عملية صنع القرار » فإن الخبير أو المبرمج يجب أن تتناول 
هذه المشكلة صراحة. 


الرياضيات 

لتحسين مهارات التعلم SY‏ يجب أن يكون GU‏ عالم البيانات معرفة عميقة بالرياضيات. 
موضوعان مهمان في الرياضيات من حيث التطبيق في علم البيانات هما الجبر والحساب. في 
حين أن الجبر يدور حول دراسة المتجهات والوظائف الخطية c‏ فإن الحساب هو الدراسة الرياضية 
للتغير المستمر. يتم استخدام العديد من المفاهيم الجبرية مثل الموترات والمتجهات في العديد 
من مجالات التعلم الآلي. وبالمثل e‏ فإن الحسابات مطلوبة في مجالات مختلفة من التعلم IU‏ 
مثل تقنيات التحسين. 

الاحصاء والاحتمالية 

العالم هو عالم احتمالي ‏ لذلك نحن نعمل مع البيانات الاحتمالية ؛ هذا يعني أنه وفقًا لمجموعة 
محددة من المتطلبات الأساسية c‏ ستظهر لك البيانات جزءًا من الوقت فقط. لاستخدام علم 
البيانات بشكل صحيح . يجب أن يكون المرء على دراية بالاحتمالات والإحصاءات. الإحصاء 
والاحتمالات من المتطلبات الأساسية في علم البيانات والمعرفة الجيدة في هذا المجال ضرورية. 


معالجة asli‏ الطبيعية 

في مجال علم البيانات » تعد معالجة اللغة الطبيعية OSs‏ مهما LAY‏ مع تطبيقات واسعة في 
مختلف قطاعات الصناعة والشركات. من السهل على البشر فهم اللغة » ومع ذلك e‏ فإن eSI‏ 
غير قادرة على التعرف عليها بشكل كاف. معالجة اللغة الطبيعية هي فرع من فروع الذكاء 
الاصطناعي يركز على سد الفجوة بين التواصل بين الإنسان والآلة لتمكين الآلة من التفسير 
والفهم. 

العرض المرنى للبيانات 

يعد تصوير البيانات أحد أهم فروع علم البيانات. ببساطة » يتضمن الرسم التوضيحي عرض 
البيانات في شكل رسوم بيانية ومخططات بيانية. 

as)‏ البرمجة 

يجب أن يتمتع عالم البيانات . بالإضافة إلى مهارات الكمبيوتر الأساسية مثل الكفاءة في 
Microsoft Excel‏ . بمهارات البرمجة حتى يتمكن من استخدامها للعمل مع البيانات 
(المعالجة والتمثيل المرئي وما إلى ذلك) واستخدام التعلم الآلي ومهارات التعلم العميق في 
تنفيذ المشروع. 

الخوارزميات 

نظرًا oY‏ جميع أنظمة التعلم الآلي تعتمد على الخوارزميات e‏ فمن الضروري جد أن يكون لدى 
عالم البيانات فهم أساسي للخوارزميات وكيفية تصميمها. 

تطبيقات علم البيانات 

الآن بعد أن عرفت أهمية علم البيانات والمتطلبات الأساسية والمهارات اللازمة له » من المهم 
أن تعرف كيف يمكن استخدام علم البيانات في العالم الحقيقي . وسنرى كيف غيّر علم البيانات 
العالم اليوم. لذلك c‏ إليك قائمة بتطبيقات علوم البيانات لمعرفة المزيد عن تطبيقاتها: 
المواصلات 

أهم تقدم أو تطوير حققه ple‏ البيانات في مجال النقل هو إدخال السيارات ذاتية القيادة. لقد 
أسس علم البيانات موطئ قدم قوي في صناعة النقل من خلال التحليل المكثف لأنماط استهلاك 
الوقود ‏ والمراقبة النشطة للمركبة وسلوك السائق » وتوفير بيئات قيادة أكثر أمانًا للسائقين» 
وتحسين أداء السيارة » وإضافة الاستقلالية إلى السيارات وغير ذلك. باستخدام التعلم المعزز 
والاستقلالية » يمكن لشركات صناعة السيارات بناء سيارات أكثر ذكاءً وطرقًا منطقية أفضل. 
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كشف المخاطر والاحتيال 

تم استخدام علم البيانات لأول مرة في التمويل والمصارف. كانت العديد من المؤسسات المالية 
مثقلة بالديون في نهاية كل HUI ple‏ تم اعتبار اساليب ple‏ البيانات كحل. لتحليل احتمالية 
المخاطر . تعلموا فصل البيانات Fly‏ على مواصفات العميل والتكاليف السابقة والمتغيرات 
الضرورية الأخرى. وبالتالي » يمكنهم القيام بالتسويق المستهدف بناءً على إيرادات كل dese‏ كل 
عام. 


ale‏ الوراثة والجينات الوراثية 

يساعد علم البيانات علماء الأحياء على تحليل استجابة الجينات للأدوية المختلفة. والغرض منه 
هو فهم ودراسة تأثير الحمض النووي على صحة الشخص. والذي يسعى إلى إيجاد روابط 
بيولوجية بين الأمراض والجينات والاستجابات للأدوية. 


تطوير الادوية 

يتطلب اكتشاف دواء جديد سنوات من البحث والاختبار للوصول إلى مرحلة الإنتاج وفي النهاية 
يتم ترخيصه للمتاجر الطبية والمستشفيات للمرضى. يمكن استخدام خوارزميات التعلم الالي 
وعلوم البيانات لتبسيط العملية وتقليل الوقت اللازم للفحص الأولي لمركبات الأدوية المستخدمة 
في إنتاج الأدوية. يمكن أن تتنباً الخوارزميات وعلوم البيانات LAS Cal‏ استجابة الجسم 
لمركبات دوائية معينة باستخدام نماذج ومحاكاة إحصائية ورياضية مختلفة. هذا أسرع بكثير من 
الاختبارات المختبرية التقليدية. يمكن للنماذج أيضًا توقع النتائج المستقبلية بشكل أكثر دقة. 


BN‏ الفصل الاول 
أصبحت الصناعات تعتمد على البيانات وتحتاج إلى علماء بيانات لمساعدتها على اتخاذ 
قرارات أكثر ذكاءً وإنشاء منتجات أفضل. 

om‏ الغرض من علم البيانات هو شرح العمليات من خلال البيانات الموجودة. 

" تشير البيانات الضخمة إلى مجموعة كبيرة من البيانات غير المتجانسة التي تم الحصول 
عليها من مجموعة متنوعة من المصادر. 

* البيانات الضخمة هي في الأساس تطبيق خاص لعلم البيانات. 

7 تنقسم طرق التحليل إلى أربع فثات رئيسية حسب درجة التعقيد: التحليل الوصفي 
والتشخيصي والتنبؤي والتوجيهي 

m‏ تتمثل مهمة عالم البيانات في عمل التنبؤات الأكثر دقة. 

* يكون عالم البيانات الجيد جيدا مثل البيانات التي يمكنه الوصول إليها. 


s‏ يركز مهندسو البيانات على جمع البيانات وإعدادها لاستخدامها من قبل العلماء ومحللي 
السانات. 
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" سبب اختيار بايثون فى ale‏ البيانات. 


© مفاهيم البرمجة فى بايثون. 
" مقدمة فى مكتبة NumPy‏ 


ما هی add‏ بایثون؟ 


كعالم بيانات جديد» يبدأ مسارك بلغة البرمجة التي تحتاج إلى تعلمها. من بين جميع اللغات التي 
يمكنك الاختيار من بينهاء فإن بايثون Python‏ هي الأكثر شعبية بالنسبة للعالم. بايثون هي لغة 
برمجة عالية المستوى موجهة للكائنات وتستخدم لمجموعة واسعة من المشكلات ذات النطاق 
والتعقيد المتفاوتين. على عكس العديد من اللغات المماثلة من السهل إتقانها وتعلمها وهي 
مثالية للمبتدئين. لكن هذه السهولة ليست السبب الوحيد لأهميتهاء هي قوية بما AS‏ حتى 
للمستخدمين المتقدمين. بالإضافة إلى ذلك تعد بايثون أكثر أدوات we‏ البيانات acad‏ 
وهي مدرجة كشرطفي معظم قوائم إعلانات وظائف علوم البيانات. 


سبب اختيار بايثون فى علم البيانات؟ 


تعد بايثون واحدة من أكثر اللغات قيمة وإثارة للاهتمام لتحليل البيانات وتتزايد شعبيتهاني عالم 
تحليل البيانات وعلوم البيانات يومًا بعد يوم. نظرًا OY‏ بايثون هي واحدة من أكثر لغات البرمجة 
diy‏ فقد أصبحت Sade Cle‏ أيضًاء يفضل الأشخاص الذين يرغبونفي دخول عالم العلوم 
لغة بايثون على العديد من لغات البرمجة الأخرى. YOY‏ يتعين عليهم قضاء الكثير من الوقتفي 
تعلمه. توجد أيضًا de-‏ بايثون مصممة خصيصًا لمهام محددة, gly‏ ذلك NumPy ; pandas‏ 
و .SciPy‏ باختصار. غزت بايثون علم البيانات بسبب الميزات التي ذكرناها أدناه: 


" البساطة: بايثون هي واحدة من أسهل اللغات للبدء بها. أيضا c‏ هذه البساطة لا تحد من 
الميزات التي تحتاجها. 

" المكتبات والأطر: نظرًا لشعبيتها e‏ تمتلك بايثون المتات من المكتبات والأطر المختلفة 
التي تساعد بشكل كبير في عملية التطوير الخاصة بك وتوفر الكثير من الوقت. بصفتك 
عالم بيانات » ستجد أن m‏ من هذه المكتبات تركز على علم البيانات والتعلم الآلي. 

* مجتمع هائل: أحد أسباب شهرة بايثون هو أنها تضم مجتمعًا كبيرًا من المهندسين 
والعلماء. قد تعتقد أن هذا لا ينبغي أن يكون أحد الأسباب الرئيسية لاختيار بايثون « لكن 
العكس هو الصحيح. إذا لم تستخدم آراء ودعم الخبراء الآخرين » فسيكون مسار التعلم 
الخاص بك صعبًا. 

pun‏ في التعلم العميق: تحتوي بايثون على العديد من الحزم مثل keras‏ و 
Tensorflow‏ و Py Torch‏ التي تساعد علماء OLLI‏ على تطوير خوارزميات التعلم 
العميق. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


* تمثيل مرئي أفضل للبيانات: التمثيل المرئي للبيانات هو مفتاح لعلماء البيانات BY‏ 
يساعدهم على فهم البيانات بشكل أفضل. يمكن أن تساعدك بايثون في الرسوم 
التوضيحية المذهلة مع مكتبات مثل ggplot‏ و Matplotlib‏ و NetworkX‏ وما إلى ذلك. 


التحميل 


في هذا القسم» نقدم خطوات تثبيت بايثونفي نظام التشغيل ويندوز. نظرًا لعدم وجود بيئة بايثون 
Shores‏ نظام التشغيل ويندوزء يجب تثبيتها بشكل مستقل. يمكن تنزيل حزمة التثبيت من موقع 
بايثون الرسمي (www. python.org)‏ بعد فتح الموقع الرسمي» ابحث عن شريط التنقل 
الذي يحتوي على الزر "تنزيل'". يوصي موقع الويب برابط افتراضيًا» حيث يمكنه تحديد نظام 
التشغيل الخاص بك والتوصية بأحدث إصدار من Python 3.x‏ بعد الدخول إلى صفحة التنزيل 
الخاصة بالإصدار ذي الصلةء توجد مقدمة أساسية حول البيئة التي تريد تنزيلها. تم تصميم العديد 
من الإصدارات المختلفة بشكل أساسي لأنظمة التشغيل المختلفة. اعتمادًا على ما إذا كان النظام 
2 بت أو 64 بت» يمكنك تحديد ملفات مختلفة لتنزيلها.في الصفحة الجديدة التي تفتح» يمكننا 
العثور على إصدارات أخرى. ls‏ ذلك أحدث إصدار تجريبي والإصدار المطلوب. إذا كنت 
تريد تثبيت الإصدار 64 بت 3.9.6( فانقر فوق الرابط الموجودفي الصفحة الحالية. 


بعد تحميل بايثون. حان وقت تثبيته. يعد تثبيت حزمة ويندوز أمرًا سهلاً للغاية. GLS‏ مثل تثبيت 
برامج ويندوز الأخرى. نحتاج فقط إلى تحديد الخيار المناسب والنقر فوق الزر "التالي" لإكمال 
التثبيت. عندما تظهر الخيارات أثناء التثبيت» لا تتسرعفي الخطوة التالية. GY‏ من أجل الراحةفي 
المستقبلء عليك اختيار زر "Add Python 3.9.6 to PATH"‏ لمتغير البيئةء يمكن تنفيذ أوامر 
بايثون مباشرة وبسهولة على سطر أوامر ويندوزفي المستقبل. بعد تحديد " 3.9.6 Add Python‏ 
"to PATH‏ حدد التثبيت المطلوب. بالطبع» من الممكن أيضًا تحديد موقع التشبيت» المثبتفي 
مجلد المستخدم على محرك الأقراص C‏ افتراضيًا. ومع US‏ من الأفضل معرفة ما هو مجلد 
المستخدم حتى تتمكن من العثور على ملفات python. exe‏ المثبتة عند الحاجة. اتبع التعليمات 
لتثبيت بايثون بنجاح على نظامك. 


! download 


ابدأ مع بايثون 


هناك طريقتان لبدء تشغيل بايثون: 

1( استخدام IDLE‏ الخاص ببايثون. إذاكنت ترغب في تشغيل بايثون . يمكنك النقر فوق الزر 
"ابد" على سطح مكتب ويندوز واكتب "IDLE"‏ في مربع "بحث" للدخول بسرعة إلى 
read-evaluate-print-loop"‏ بعد تشغيل البرنامج » سترى صورة مثل الصورة أدناه: 


[MSC 7.1900 64 bit (AMD6 


", "copyright", "credits" or "license()" for more information. 


Ln:3 Cok4 


IDLE‏ هو IDE‏ (بيئة تطوير متكاملة') لبايثون يوفر محرر واجهة مستخدم رسومي. يبدو تشغيله 

بسیطًا Cota s‏ للمبتدئينفي تعلم لغة بايثون. يوفر IDLE‏ بيئة REPL‏ أي أنه يقرأ ويقيم ويحسب 

2( استخدام Windows Prompt‏ هناك طريقة أخرى لتشغيل بايثون وهي تشغيل برامج 
بايثون من سطر أوامر ويندوز. للقيام بذلك c‏ اضغط على مفتاحي "Win + R"‏ لفتح مربع 
الإشعارات » ثم أدخل "emd"‏ في المربع الذي يفتح. إذا قمت بتحديد " Add Python‏ 
3.x to PATH‏ " عند تثبيت بايثون. فقد تمت إضافة بايثون المثبت إلى متغير بيئة ويندوز. 
الآن بإدخال "python" dls‏ بعد ظهور > سيتم تشغيل بايثون بنجاح وسترى صورة 
مثل الصورة أدناه: 


يشير التعبير "<<<" " إلى أن التثبيت باستخدام بايثون كان ناجحًا وأن بايثون قد بدأتفي العمل. 


! Integrated Development Environment 
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المكتبات وإدارتها فى بايتون 


المكتباتفي بايثون عبارة عن أجزاء من التعليمات البرمجية يمكن إعادة استخدامها Gla)‏ ذلك 
إلى كتابتها. في بعض الأحيان قد تقضي ساعاتفي كتابة برنامج نصي لمهمة محددة تتطلب وقت 
تنفيذ (n7)‏ 0. ومع ذلك فمن المحتمل جد وجود مكتبة ll‏ بايثون تحتوي على نفس الوظيفة 
وتنفذفي O(n)‏ 

كمبتدئ c‏ السؤال الذي يُطرح Gla‏ ما هي المكتبة التي يجب أن أستخدمها للبدء في علم 
البيانات لجعله ابسط وأسهل في التنفيذ؟ يوجد الآلاف من المكتبات في بايثون. ومع ذلك. في 
ما يلي » سنقوم فقط بإدراج أهم OLS‏ بايثون في مجال ple‏ البيانات ونوضح استخدام كل 


NumPy 


»»» pip install numpy 


Keras 


>>> pip install keras التثبيت:‎ 


1F TensorFlow 


TensorFlow 


>>> pip install tensorflow 


الفصل الثاني: مقدمة في بايثون 


O PyTorch 
PyTorch 


PyTorch‏ هو إطار عمل تعلم آلى وتعلم عميق مفتوح المصدر طوره باحثو Facebook AI‏ يستخدم العديد 
من cobi Ae‏ حول لعل alls le Py Torch‏ ا اال وال A)‏ کے وو pisos]‏ يكن 
NAS‏ مسيم noa;‏ الاي N‏ دقام PyTorch ye‏ 


>>> pip install torch torchvision torchaudio التثبيت:‎ 
(2 Scrapy 


تعد Scrapy‏ واحدة من أكثر مكتبات بايثون ee‏ لاستخراج البيانات من مواقع الويب. تساعد هذه المكتبة فى 
استرداد البيانات من مواقع الويب بطريقة فعالة. يساعد Scrapy‏ فى استرداد البيانات المنظمة من الويب والتى 
يمكن استخدامها لاحقا لنمذجة التعلم SY‏ الخاص بک 


>>> pip install Scrapy التثبيت:‎ 


Beautifulloup 


BeautifulSoup‏ ھی واحدة من أفضل مكتبات برامج زاحف Web crawler cogl‏ وأكثرها شيوعًا والتى يمكن 
cli d ded‏ من ملفات XML p HTML‏ تساعدى هذه الأداة فى تنظيف وتحليل المستندات 


>>> pip install beautifulsoup4 ET 


jul pandas 


Scrapy 


BeautifulSoup 


Pandas 
4,98 مرونة‎ Pandas من أهم مكتبات علم البيانات المستخدمة لإنشاء هياكل البيانات. يوفر‎ 5351, Pandas تعد‎ 
فى إنشاء هياكل البيانات لعلم البيانات. لأنه يمكن أن يخلق هياكل بيانات متعددة الأبعاده مهيكلةء غير متجانسة‎ 

Cblully Ager! aelgil [loud لك‎ odas pasas SI EEA 


>>> pip install pandas التثبيت:‎ 
(Sy  sciry 
SciPy 


NumPy هى مكتبة بايثون أخرى تستخدم لحل المسائل العلمية والرياضية وهى مبنية على المكون الإضافى‎ SciPy 
الرياضية الحقاة‎ lali Jo ف‎ cobi جه علا‎ SCIPy ل‎ Sarg cobbled عل‎ ye logge انا‎ dsl Jl osse sa 
SciPy يحتوى على ميزات إضافية مثل النسخة الجبرية الكاملة.‎ NumPY هو إصدار متقدم من‎ SciPy يمكن القول إن‎ 


سريع ولديه قدرة حوسبة عالية. 


<<< pip install scipy التثبيت:‎ 
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Scikit- Learn eie. 


matpl*tlib 


»»» pip install scikit-learn 


Matplotlib 


»»» pip install matplotlib التنست:‎ 


@ seaborn 


Seaborn 


>>> pip install seaborn 


NetworkX 


»»» pip install networkx 


! Heat Map 


J i‏ 5 وحذف m 4 JI ^ J ig‏ ات 


يجب عليك استخدام Pip‏ لإدارة Pip. Pip OLS‏ هي أداة أساسية تتيح لك تنزيل الحزم التي 
تحتاجها وتحديثها وحذفها. بالإضافة إلى HS‏ يمكن استخدامه للتحقق من التبعيات المناسبة 
والتوافق بين الإصدارات. 

يتم تثبيت مكتبة باستخدام Pip‏ سطر أوامر ويندوز. على سبيل المثالء افترض Ul‏ نريد 
تثبيت مكتبة .NumPy‏ توضح الخطوات التالية كيفية تثبيت هذه المكتبة: 


* اضغط أولاً على مفتاحي "Win + R'‏ لفتح مربع الإشعارات ثم أدخل "emd"‏ في المربع 
الذي يفتح. ثم أدخل الأمر التالي في سطر الأوامر: 


> pip install numpy 


" للتأكد من تثبيت المكتبة e‏ قم بتشغيل سطر أوامر بايثون واكتب الأمر التالي: 


>>> import numpy 


" لن يتم عرض أي رسالة إذا تم تثبيت المكتبة بشكل صحيح. إذا لم يتم تثبيت المكتبة على 
جهاز الكمبيوتر الخاص بك e‏ فسترى هذه الرسالة عن طريق تنفيذ الأمر أعلاه: 


Traceback (most recent call last): 
File "<stdin>", line 1, in «module» 
ImportError: No module named numpy 


يتم استخدام الأمر التالي لحذف مكتبة (على سبيل :(numpy «JJ‏ 


< pip uninstall numpy 
تثبيت مكتبة‎ OY في بعض الأحيانء تجد نفسكفي موقف يتعين عليك فيه ترقية مكتبة. نظرًا‎ 
فقد ترغبفي‎ th أخرى يتطلب إصدارًا أحدث من المكتبة مثبتا على جهاز الكمبيوتر الخاص‎ 


E 


TN 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الاستفادة من الإصدار المحدث. الذي يحتوي على ميزات إضافية. لذلك» لتحديث مكتبة (على 
سبيل المثال مكتبة (umpy‏ قم بتشغيل الأمر التاليفي سطر الأوامر: 


> pip install --upgrade numpy 
يمكن القيام بذلك لعرض النسخة المثبتة من المكتبة:‎ 


»» import numpy 


»»numpy. version - 
"119:2: 


Jupyter Notebook juga نوتبوك‎ 


نوتبوك جوبيتر Jupyter Notebook‏ هو أداة قوية بشكل Y‏ يصدق لتطوير وتقديم مشاريع 
علم البيانات التفاعلية التي يمكن أن تتضمن Ca‏ أو صورة أو صونًا أو فيديو بالإضافة إلى تنفيذ 
التعليمات البرمجية. يجمع النوتبوك Notebook‏ بين التعليمات البرمجية والمخرجات مع 
الرسوم التوضيحية والنص السردي والمعادلات الرياضية والوسائط dios RI‏ مستند واحد. 
بمعنى ST‏ النوتبوك هو مستند واحد يمكنك من خلال نوتبوك جوبيتر تنفيذ التعليمات البرمجية 
وعرض الإخراج وإضافة الأوصاف والصيغ والرسوم التخطيطية لجعل عملك أكثر وضوحًا 
LLG,‏ للفهم وقابلية للتكرار والمشاركة. منصات أخرى Able‏ مثل Spyder‏ توفر 
للمستخدمين نوافذ متعددة تعقد الأمور. أصبحت نوتبوك جوبيتر واجهة مستخدم قوية وفعالة من 
خلال توفير نافذة واحدة للمستخدم يتم فيها عرض الأجزاء المنفذة من التعليمات البرمجية 
وإخراجها داخليًا. يتيح ذلك للمستخدمين تطوير التعليمات البرمجية BUS‏ بالإضافة إلى النظر 
إلى العمل السابق كمرجع وحتى إجراء تغييرات عليه.في هذا القسم. سوف نعلمك كيفية تثبيت 
واستخدام نوتبوك جوبيتر لمشاريع علم البيانات. 


Jupyter تثبيت‎ 


لتثبيت نوتبوك جوبيتر» تحتاج إلى تغبيت بايثون مسبقاً. حتى إذا كنت تخطط لاستخدام نوتبوك 
جوبيتر للغات البرمجة الأخرىء OB‏ بايثون هي الركيزة الأساسية لنوتبوك جوبيتر. لتثبيت جوبيتر» 
ما عليك سوى كتابة الأمر التاليفي سطر أوامر ويندوز: 


تشغيل نوتبوك جوبيتر وإنشاء نوتبوك 2722 


لتشغيل نوتبوك جوبيترء افتح سطر الأوامر واكتب الأمر التالي فيه: 


بعد تنفيذ الأمر أعلاه. سيتم تشغيل متصفح الويب الافتراضي الخاص بك مع جوبيتر. عند 
تشغيل نوتبوك جوبيتر, انتبه إلى دليل سطر الأوامر. حيث يصبح هذا الدليل هو الدليل الرئيسي 
الذي يظهر على الفور على نوتبوك جوبيتر وسيكون لديك حق الوصول إلى الملفات والأدلة 
الفرعية الموجودة فيه فقط. قم بتشغيل أمر نوتبوك جوبيتر وسترى صفحة مثل الصفحة أدناه: 


= Jupyter Qui || Logout 
Running Clusters Nbextensions 
Select items to perform actions on them. Upload Newer © 
0 - M! Name له‎ Last Modified File size 


ومع ذلك فإن هذه الصفحة ليست نوتبوك بعد وهي سطح المكتب الوحيد من جوبيتر المصمم 
لإدارة نوتبوك جوبيتر الخاصة بك واستخدامها كدليل لاستكشاف" وتحرير وإنشاء النوتبوك 
الخاصة بك. تعتمد النوتبوك وسطح المكتب من جوبيتر على متصفح الويب. ويقوم جوبيتر 
بإعداد خادم بايثون محلي لتوصيل هذه التطبيقات بمتصفح الويب الخاص بك. 

لإنشاء نوتبوك جديد. انتقل إلى الدليل حيث تريد إنشاء النوتبوك الأول لك وانقر على زر 
القائمة المنسدلة "جديد" أعلى يمين سطح المكتب وحدد "3 "Python‏ 


Upload | New > 


Name ¥ te 
Python 3 
Runt Text File k 
Folder M 
Terminal 
á m M 


بعد ذلك. سيتم فتح النوتبوك الأول لكفي علامة تبويب جديدة” مثل تلك الموجودة أدناه: 


1 exploring 


? new tab 


50 تعلم AINT‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 
JO e^ í 2‏ 


© Jupyter Untitled (autosaved) e Logout 
File Edit View Insert Cell Kernel Widgets Help Truste | Python3 O 
+o aB ^ ¥ مهس‎ NB C P9 Coe viel- ¢ Ma 


| =o 


إذا عدت إلى سطح مكتب جوبيتر. فسترى ملف Untitled.ipynb‏ الجديد وسترى Ga‏ أخضر 
يخبرك أن النوتبوك الخاص بك قيد التشغيل. 


العمل على نوتبوك جوبيتر 


النوتبوك مكون من خلايا. المربعات التي تحتوي على كود أو نص يمكن قراءته من قبل الإنسان. 
تحتوي كل خلية من هذه الخلايا على نوع' يمكن تحديده من خيارات القائمة المنسدلة: 


point: a minute ago (unsaved changes) 


Kernel Widgets Help 
un B C » (Code v| e = 


Markdown 


Raw NBConvert 


Heading 


الخيار الافتراضى للخلايا هو "code"‏ لإنشاء خلية يمكن قراءتها بواسطة الإنسان (oe)‏ يجب 
استخدام نوع الخلية "Markdown"‏ وكتابته Ga‏ لقواعد تنسيق .Markdown‏ 

دعنا نختبر LAS‏ أداء الخلية بمثال كلاسيكي. اكتب print ("Hello World!)‏ في خلية 
وانقر على الزر PP‏ في شريط الأدوات العلوي أو اضغط على .Ctrl + Enter‏ ستكون 
النتيجة على هذا النحو E‏ 


In [1]: print ("Hello World!"') 


Hello World! 


l type 


Las XJ Markdown‏ خفيفة الوزن لتنسيق النص البسيط. تركيبته' متوافقة مع 
علامات” HTML‏ نحن نغطي الأساسيات بمثال سريع » من خلال وضع نص مثل ذلك 
الموجود في الصفحة التالية في خلية تم تحديد نوع Markdown‏ بالفعل » سترى النتيجة في 
الصورة التالية بعد التنفيذ. ومع ذلك e‏ تجدر الإشارة إلى أنه بمجرد التنفيذ » يحول هذا الإخراج 
المعروض نفس الخلية إلى نص. 


# This is a level 1 heading 

## This is a level 2 heading 

This is some plain text that forms a paragraph. Add emphasis via **bold** and bold , or *italic* and italic . 
Paragraphs must be separated by an empty line. 


* Sometimes we want to include lists. 
* Which can be bulleted using asterisks. 


1. Lists can also be numbered. 
2. If we want an ordered list. 


[It is possible to include hyperlinks] (https: //www.example.com) 


This is a level 1 heading 


This is a level 2 heading 
This is some plain text that forms a paragraph. Add emphasis via bold and bold, or ifalic and italic. 
Paragraphs must be separated by an empty line. 


e Sometimes we want to include lists. 
* Which can be bulleted using asterisks. 


1. Lists can also be numbered. 
2. If we want an ordered list. 


It is possible to include hyperlinks 


انقر فوق الزر T‏ لإنشاء خلية جديدة على جوبيتر» عن طريق شريط القوائم للصفحة او اضغط 
على esc + b‏ عبر اختصار لوحة المفاتيح. يؤدي هذا إلى إنشاء خلية جديدة (افتراضيًا من نوع 
(Code‏ ضمن الخلية المحددة حاليًا. 


1 syntax 


2 tags 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


تركيب الجملة' فى بايثون 


تم تطوير لغة GO gb‏ الأصل كلغة تعليمية؛ ولكن سهولة استخدامها وتركيب الجملة النظيف 
جعلها شائعة لدى المبتدئين والمحترفين على حد سواء. دفع ely‏ جملة بايثون النظيف بالبعض 
إلى تسميته "الشفرة الزائفة التنفيذية”". غالبًا ما تكون قراءة وفهم سطر من بايثون أسهل بكثير من 
قراءة سطر مشابهفني (C‏ على سبيل المثال. 

يشير تركيب الجملة في لغة البرمجة إلى بنية اللغة. بمعنى آخرء التركيب اللغوي هو مجموعة 
من القواعد التي تحدد كيفية كتابة البرمجة بلغة ما. 


الكلمات المحجورة 
الكلمات المفتاحية هي بعض الكلمات المحجوزةفي بايثون والتي لها معاني خاصة. تستخدم 
الكلمات المفتاحية لتعريف القواعد النحوية وهيكل اللغة. لا يمكن استخدام الكلمة المفتاحية 
كمعرف أو وظيفة أو اسم متغير. الكلمات المفتاحيةفي بايثون حساسة لحالة الأحرف» لذا يجب 
كتابتها كما هي. جميع الكلمات المفتاحيةفي بايثون, باستثناء None; False; True‏ هي أحرف 
صغيرة. قد تتغير الكلمات المفتاحيةفي إصدارات مختلفة من بايثون. قد يتم إضافة var‏ 
الإضافات أو قد تتم إزالة البعض الآخر. يمكنك دائمًا الحصول على قائمة بالكلمات المفتاحية 
فى إصدارك الحالى عن طريق كتابة الأوامر التالية: 
In H: import keyword‏ 
keyword.kwlist‏ 
Out [1]: ['False','None', True', 'and', 'as','assert','async','await',‏ 
"break','class','continue','def','del', 'elif’,'else', 'except',‏ 
'finally', 'for','from','global', f, import', in iS lambda’,‏ 
'nonlocal', 'not','or', 'pass', 'raise', return', 'try', while',‏ 
"with', 'yield'|‏ 


المعرف 
المعرف هو الاسم الذي نستخدمه لتحديد متغير أو دالة أو فئة أو وحدة نمطية أو كائن. هذا يساعد 
على تمييز Joly OLS‏ عن LPM‏ 


. Syntax 


? executable pseudocode 


قواعد كتابة المعرف 
هناك بعض القواعد لكتابة المعرفات. بادئ ذي بدء نحتاج إلى معرفة أن لغة بايثون حساسة 
لحالة الأحرف. هذا يعني أن names Name‏ هما معرفان مختلفانفي بايثون. المدرجة أدناه هي 
بعض Ael JE‏ لكتابة المعرفاتفي بايثون: 
1. يمكن أن تكون المعرفات مزيجًا من الأحرف الصغيرة (من a‏ الى 2) أو الأحرف الكبيرة 
(من A‏ الى 7) أو الأرقام (من 0 الى 9) أو الشرطة السفلية ' ( ). أحرف مثل 
my. Python .myPython‏ و 1 var‏ كلها صالحة. 
لا يمكن أن يبدأ المعرف برقم. 1 
. لايمكن استخدام رموز معينة مثل!ء ©): # G‏ 96 الخ كمعرفات. 
4. يمكن أن يكون المعرف بأي طول. 


ENT 
المتغير هو موقع يستخدم لتخزين البياناتفي الذاكرة. هذا يعني أنه عند إنشاء متغيرء فإنك تشغل‎ 
بعض المساحةفي الذاكرة. يتم تعيين اسم لكل متغير بحيث يمكن تحديده والوصول إليه من‎ 
متغيرات أخرى.‎ 

اسناد قيم للمتغيرات 

يعد إنشاء المتغيراتفي بايثون Gal‏ بسيطًاء ما عليك سوى LES‏ اسم المتغير على اليسار = وقيمة 
المتغير على اليمين: 

In [1]: num = 5 


In [2]: str = "Python" 


لا تحتاج إلى تحديد نوع المتغير» تستنتج بايثون النوع بناءً على القيمة التي نخصصها. 
الاسناد المتعدد 


تسمح UJ‏ بايثون بتعيين قيمة لمتغيرات متعددةفي الذاكرة» يسمى الاسناد المتعدد. يمكننا تطبيق 
اسناد متعدد بطريقتين» إما عن طريق تعيين قيمة واحدة لمتغيرات متعددة أو عن طريق تعيين 
قيم متعددة لمتغيرات متعددة. تأمل الأمثلة التالية: 
In [3: a=bþ=c=20‏ 
print("a:",a)‏ 
print("b:",b)‏ 
print("c:",c)‏ 


1 underscore 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


B: 20 
e720 

In M:  a,b,e=1,2.54,"python" 
print("a:",a) 
print("b:",b) 
print("c:",c) 

Out [4]: ail 


b: 2.54 
c: python 


أنواع البيانات 


في البرمجةء يعد نوع البيانات مفهومًا Lage‏ يمكن للمتغيرات تخزين البيانات من أنواع مختلفةء 
ويمكن للأنواع المختلفة القيام بأشياء مختلفة. نظرًا لأن كل شي de‏ برمجة بايثون هو كائن, فإن 
أنواع البيانات هي ني الواقع Tks‏ والمتغيرات هي أمثلة للكائن.في هذا القسم. يتم فحص نوع 
البيانات الرقمية ونوع البيانات النصية فقطفي بايثون. ويتم وصف الأنواع GSE’‏ قسم هياكل 
البيانات. 


الاعداد 


في بايثون» يشير نوع البيانات الرقمية إلى البيانات التي تحتوي على قيمة رقمية. يمكن أن تكون 
القيم الرقمية أعدادًا صحيحة أو أرقامًا فاصلة عائمة أو حتى GU‏ معقدة. يتم تعريف هذه القيم 
على i‏ فثات float; int‏ و complex‏ في بايثون. يتم استخدام وظيفة type()‏ لتحديد نوع 
البانات. 


In E g=6 
b= 7.0 
c=4+3) 
print("Type of a: ", type(a)) 
print("Type of b: ", type(b)) 
print("Type of c: ", type(c)) 
Out [1]: Type of a: «class 'int'> 
Type of b: <class 'float'> 
Type of c: <class 'complex'> 


! Classes 


الفصل الثاني: مقدمة في بايثون 


السلاسل النصية 


في بايثون» السلاسل عبارة عن مصفوفات من البايتات التي تمثل أحرف Unicode‏ السلسلة 
النصية عبارة عن مجموعة من حرف واحد أو أكثر. لا توجد بيانات حرفيةفي بايثون» فالحرف 


عبارة عن سلسلة بطول واحد. 


Str 1 ='Python Data Types' 
Str 1 

"Python Data Types' 

Str 2 = "data science" 

Str 2 

"data science" 

type(Str 2) 

str 

type("c") 

str 


العوامل 


تستخدم عوامل' بايثون عمومًا لإجراء عمليات على القيم والمتغيرات. إنها رموز قياسية تستخدم 


In [1]: 


لأداء العمليات المنطقية والحسابية والمقارنة. 


العوامل الحسابية 
تستخدم العوامل الحسابية لإجراء عمليات حسابية مثل الجمع والطرح والضرب والقسمة. 
العملية شرح العامل العامل 
x+y‏ الجمع + 
p x-y‏ = 
x *y‏ الضرب x‏ 
x/y‏ القسمة (قسمة Cy AEX‏ / 
x/ly‏ القسمة (حاصل القسمة التحتية (y dex‏ // 
x 96 y‏ باقي القسمة % 
x ** y‏ القوة de‏ 
x-10‏ 
y=3‏ 
add = xty‏ 
sub=x-y‏ 
mul = x * y‏ 
divl=x/y‏ 
div2=x//y‏ 


1 operators 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


mod = x % y 
Doux y 
print("Addition:",add) 
print("Subtraction:",sub) 
print("Multiplication:",mul) 
print("Division(float):",div1) 
print("Division(floor):",div2) 
print("Modulo:",mod) 
print("Power:",p) 

Out [1]: Addition: 13 
Subtraction: 7 
Multiplication: 30 
Division(float): 3.3333333333333335 
Division(floor): 3 
Modulo: 1 
Power: 1000 


العوامل المنطقية 


يتم تطبيق العوامل المنطقية or and)‏ و (not‏ على التعبيرات المنطقية وتكون النتيجة صواب أو 
خطأ. يتم استخدام هذه العوامل للشروط المعقدة. 


العملية شرح العامل العامل 
True x and y‏ إذا كان كلا المعاملين and True‏ 
True X ory‏ إذا کان أحد المعاملات or True‏ 

not False فالمعامل‎ True کان‎ 3] not x 


In [i] X= True 


Y = False 
print(X and Y) 
print(X or Y) 
print(not X) 
Out [1]: False 
True 
False 
عوامل المقارنة‎ 
بالعوامل‎ Gad العاملان قيم جانبيهما ويحددان العلاقة بينهما. تسمى عوامل المقارنة‎ olia تقارن‎ 
الارتباطية.‎ 
العملية شرح العامل العامل‎ 
> عندما يكون المعامل الأيسر أكبر من المعامل الأيمن.‎ True أكبر من:‎ × < y 


x > ۷‏ أصغر True:‏ عندما يكون المعامل الأيسر أصغر من المعامل الأيمن. < 


== إذا کان كلا المعاملين متساويين.‎ True يساوي:‎ x == y 


ر = !»× غير مساوي: True‏ إذا کان كلا المعاملين غير متساويين. t=‏ 
x <= y‏ أكبر من او يساوي: إذا كان المعامل الأيسر أكبر من أو يساوي المعامل الأيمن. => 
y‏ => × أصغر من يساوي: إذا كان المعامل الأيسر أقل من أو يساوي المعامل الأيمن. =< 
in | aS‏ 
b = 6‏ 
print(a > b)‏ 
print(a « b)‏ 


print(a == b) 

print(a != b) 

print(a >= b) 

print(a <= b) 
Out [1]: False 

True 

False 

True 

False 

True 


هياكل البيانات 


يعد تنظيم البيانات وإدارتها وتخزينها أمرًا مهما لأنه يتيح الوصول السهل والتغيير الفعال. تسمح 
لك هياكل البيانات بتنظيم بياناتك بطريقة يمكنك من خلالها تخزين مجموعة من البيانات 
وربطها معًا وتنفيذ العمليات tly‏ عليها. هياكل البيانات هى الكتل الأساسية لحل المشكلات 
بكفاءةفي العالم الحقيقي. إنها أدوات مثبتة ومحسنة تمنحك إطارًا سهلاً لتنظيم التطبيقات. 

تدعم بايثون ضمنيًا هياكل البيانات التي تسمح لك بتخزين البيانات والوصول إليها. يوجد 
إجمالي أربعة هياكل بيانات داخليةني لغة برمجة بايثون. تتضمن هياكل البيانات هذه القوائم 
والصفوف والقواميس والمجموعات. هياكل بيانات بايثون بسيطة ولكنها قوية جدًا. يعد إتقان 
استخدامها جزءًا مهما من أن تصبح مبرمجًا ماهرًافي AX‏ بايثون. بالإضافة إلى ذلك يبحث 
أصحاب العمل والموظفون عن وقت التنفيذ وكفاءة الموارد عند حل مشكلات البرمجةفي العالم 
الحقيقي. إن معرفة هياكل البيانات الأنسب للحل الحالي يزيد من أداء البرنامج ويقلل من الوقت 
اللازم لإنشائه. لهذا السبب. تحتاج معظم الشركات الكبرى إلى فهم قوي لهياكل البيانات 
واختبارها بدقةفي مقابلات البرمجة الخاصة بهم. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


تساعد هياكل البيانات فيما يلى: 
إدارة والستخدام مجموعة البيانات. 


البحث jul‏ )6 عن SUL‏ 01290 فى oa cL8‏ البيانات. 
إنشاء اتصالات aco ja‏ أو علاقات بين نقاط UL!‏ 
تبسيط وتسريع معالجة البيانات. 


القوانم 


يتم تعريف القائمة (list)‏ على lel‏ مجموعة مرتبة من العناصر. بمعنى آخر. يحتوي على قائمة 
متسلسلة من العناصر. ترتيب العناصر هو خاصية متأصلة تظل ثابتة طوال عمر القائمة. نظرًا لأن 
كل شي ءني بايثون Ube‏ عن كائن OB‏ إنشاء قائمة يؤدي بشكل أساسي إلى إنشاء كائن بايثون 
لإخطار بايثون ob‏ القائمة قد تم إنشاؤها. يمكن إنشاء قائمةفي بايثون على النحو التالي: 


In [1]: 


= 


In [2]: 
Out [2]: 


— 


In [1 


تڪ 


In [2]: 


تت 


Out [2]: 


In [3]: 
In [4]: 
Out [4]: 


List A = [item 1, item 2, item 8, ...., item n] 


my. list = [1, 2, 3, 4] 
my list 
[1, 2 3, 4] 


إذا لم تضع أي عناصر داخل القوس» فستتلقى قائمة فارغة كإخراج: 


: my. list1 = [] 


my. listl 
1 
من العناصر بأنواع مختلفة من البيانات:‎ Bae يمكن أن تكون كل قائمة‎ 
my. list = [1, 'example!, 5.45] 
my list 
[1, ‘example’, 5.45] 


بالإضافة إلى AUS‏ يمكن أن تحتوي القائمة على قائمة أخرى كعنصر. تعرف هذه القائمة بالقائمة 


In [5]: 
In [6]: 
In [7]: 
In [8]: 
Out [6]: 


المتداخلة: 
my. list1 = [1.56, 'python']‏ 
my. list2 = ['example', 1]‏ 
my. list = [5, my. list1 ,'data scientist', my. l1st2]‏ 
my list‏ 
'python'], 'data scientist', ['example', 1]]‏ ,1.56[ ,5[ 


pais اضافة‎ 
:insert() و‎ extend() و‎ append() يمكن إضافة عنصر إلى قائمةفي بايثون باستخدام الدوال‎ 
يضيف كل العناصر المنقولة إلى القائمة كعنصر واحد.‎ append() الدالة‎ " 
يضيف عناصر إلى القائمة واحدة تلو الأخرى.‎ extend() الدالة‎ » 
يضيف عنصرًا في فهرس معين إلى القائمة.‎ inserto الدالة‎ " 
I [7] my. list = [7, 2, 1] 
In [8]: my. list 
Ou iei m. 2, ![ 
In [9]: my. list.append([44, 15,'python']) 
In [10]: my. list 
Out [10]: [7, 2, 1, [44, 15, 'python']] 
In [11]: my. list.extend(['example',2]) 
I] [12]: my. list 
Out [12]: [7, 2, 1, [44, 15, 'python'], example', 2] 
In [3] my. list.insert(1, ;nsert, examplel1') 
In [14]: my. list.insert(6, 'insert_example2') 
In [5] my. list 


Out [15]: [7, ‘insert_el', 2, 1, [44, 15, 'python?], 'example’, 
‘insert_e2', 2] 


حذف عنصر 
يمكن إزالة عنصر من قائمة في بايثون باستخدام الدوال remove() .popO clear‏ 
:del()s‏ 
" باستخدام الدالة clear()‏ « يتم حذف جميع عناصر القائمة. 
* تحذف pop() UW!‏ عنصرًا Fly‏ على الفهرس وتعرض قيمته في المخرجات. 
" باستخدام الدالة remove)‏ يمكن Us pare Uj]‏ على قيمته. 
" باستخدام الدالة del)‏ يمكن حذف pole‏ المصفوفة Fly‏ على الفهرس. الفهرس الأول هو 0 
والفهرس الأخير هو 1-. 
In [16]: my. list = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]‏ 
In [17]: my. list‏ 
Out Ma [05 1 2.5. 4.5.06. 7 9 9]‏ 
In [18]: my. list.clear()‏ 
Out [18]: []‏ 
In [19]: my. list = [8, 2, 3, 7, 9, 1]‏ 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In [20]: my. list.pop(O) 

Out [20]: 8 

In [21]: my. list.pop(4) 

Out [21]: 1 

In [22]: my. list = [12, 1, 5, 2, 4] 

In [23]: my. list.pop(-3) 

Out [23]: 5 

I [24]: my. list = ['Ali', Mohammad", 'Milad', 1, 5.69] 
In [25]: my. list.remove('Milad") 

In [25]: my. list 

Out [25]: ['Ali', Mohammad", 1, 5.69] 

In [26]: my. list.remove(1) 

I [27]: my. list 

Out [27]: ['Ali', Mohammad', 5.69] 

In [28]: my. list = [4, 7, 5, 1, 4] 

In [29]: del my_list[0] 

In [30]: my. list 

Out [30]: [7, 5, 1, 4] 

In [81]: del my. list[-1] 
In [32]: my. list 
Out [32]: [7, 5, 1] 


دوال اخرى 
هناك العديد من الدوال الأخرى التي يمكن استخدامها عند العمل مع القوائم: 
" ترجع الدالة len)‏ طول القائمة. 
" ترجع الدالة index()‏ فهرس Jol‏ العناصر (ملاحظة: إذا ظهر عنصر في القائمة عدة مرات e‏ فسيتم 
إرجاع الفهرس الأول المطابق). 
" باستخدام الدالة 50160 يتم فرز القائمة بترتيب صعودي. 


In [33]: my. list1 = [4, 7, 5, 1, 4, 12] 
In [24]: len(my. list) 

Out [34]: 6 

In [35]: my. list.index(5) 

Out [35]: 2 


In [36]: my. list.sort() 
In [27] my. list 
Out [37]: IL. aAA 5, T, 12] 


الصفوف 


الصفوف (Tuples)‏ هي سلسلة ثابتة وغير قابلة للتغيير من العناصرفي بايثون. pal‏ فرق بينها 
وبين القوائم هو ثباتها.في حين أن القوائم قابلة للتغييرء لا تتوفر هذه الميزةفي الصفوف. 


أسهل طريقة لإنشاء صف هي كما يلي: 


tuple A =item 1, item 2, item 8,..., item n 


يعد استخدام الأقواس في تكوين المجموعة أمرًا GEH‏ > لكن يوصى بالتمييز بين بداية 
المجموعة ونهايتها: 


tuple A = (item 1, item 2, item 3,..., item n) 


In [i]: my. tuple = (1, 2, 3) 
In [2]: my. tuple 
Out [2]: )1, 2, 3) 


باستدعاء tuple‏ يمكنك تحويل كل سلسلة إلى عدة صفوف: 


In. [3]: tuple([1, 3, 8]) 

Out [3]: (1, 3, 8) 

In [4]: tup_A = tuple(Python') 
I [5]: tup_A 

Queda] (P5 yt, mM OL MD) 


الدوال 
هناك العديد من الدوال التي يمكن استخدامها عند العمل مع الصفوف: 
" ترجع len)‏ الدالة طول المجموعة. 
» الدالة index()‏ ترجع فهرس العنصر. 
" ترجع الدالة maxQ‏ أكبر قيمة في المجموعة. 
" تُرجع الدالة MINO‏ أصغر قيمة في المجموعة. 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In [6]: tup. A = tuple('Python?) 
In [7]: tup. A.index('y") 

Out [7]: 1 

In [8]: my. tuple = (8, 1, 4, 5, 3) 
In [9] max (my. tuple) 

Out [9]: 8 

In [9]: min (my. tuple) 

Out [9]: 1 


عند OLS‏ صف بعنصر واحد» يجب استخدام فاصلة بعد العنصر. يمكن إنشاء صف تحتوي على 
عنصر واحد على النحو التالى: 


tuple À = (item 1,) 


لإنشاء صف فارغ» يجب على المستخدم إنشاء زوج من الأقواس الفارغة على النحو التالي: 
tuple_A= 0‏ 


n [10]: Empty. tuple- () 
In [11]: Empty. tuple 
Out [11]: () 


لماذا يفضل الصف Tuple‏ على القائمة SList‏ 
o‏ تعتبر الصفوف أسرع من القوائم. يتم تخزين المجموعه فى كتلة واحدة من 
الذاكرة. تعتبر المجموعات غير abla‏ للتغيير . لذلک ليست هناك حاجة إلى 
aalo‏ إضافية لتخزين العناصر الجديدة. 


يفضل الصف عندما لا يرغب المستخدم فى تغيير البيانات. فى بعض الأحيان ; 
يريد المستخدم إنشاء كائن يظل سليماً طوال حياته. تعتبر المجموعات غير 
als‏ للتغيير. لذا يمكن الستخدامها لمنع الإضافة أو التعديل أو óil‏ العرضى 
للبيانات. 


القواميس 


القاموس (Dictionary)‏ بايثون هو مجموعة غير مرتبة من القيم والتي على عكس هياكل 
البيانات الأخرى التي تحتوي على قيمة واحدة فقط كعنصرء يتم استخدامها لتخزين أزواج القيمة 


والمفتاح. يتم توفير قيمة المفتاحفي القاموس لمزيد من التحسين.في القاموس. يجب أن تكون 
المفاتيح فريدة. 


my. dictionary- {key 1: value 1, key 2 : value 2} 


I H]: my. dict = {'First': 'Python', 'Second': 'Julia'} 
In [2]: my. dict 
Out [7]: ('First': 'Python', 'Second': 'Julia’} 
لتغيير قيم القاموس» عليك القيام بذلك باستخدام المفاتيح. لذلك» قم أولاً بالوصول إلى المفتاح‎ 
ثم قم بتغيير قيمته:‎ 


In [93] my_dict['Second'] = 'golang' 


بت 


In [4]: my. dict 
Out [4]: ('First': 'Python', 'Second': 'golang'} 


لإضافة قيم؛ ما عليك سوى إضافة زوج قيم مفتاح آخر Giy‏ للأمر التالي: 


In [3]: my_dict['Third’] = 'Rust' 
In [4]: my. dict 
Out [4]: f'First': 'Python', 'Second': 'golang', 'Third': 'Rust') 
لحذف قيمة (ترجع هذه الدالة أيضًا القيمة المحذوفة):‎ pop) تستخدم الدلة‎ 
In [5] my. dict.pop( Third") 
Out [5]: Rust 
In [6]: my. dict 
Out [6]: ('First': 'Python', 'Second': 'golang'} 


يتم استخدام الدلة clear()‏ لمسح القاموس بأكمله: 


In [7]: my. dict.clear() 


= 


In [8]: my. dict 
Out [8]: $ 


للوصول إلى عنصرء ما عليك سوى الضغط على مفتاحه: 


In [9]: my. dict = {'First': 'Python', 'Second': 'Julia'} 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In [10]: my. dict['First'] 
Out [10]: Python 


يتم استخدام keys() 3l»‏ لعرض المفاتيح ويتم استخدام values() Jl»‏ لعرض القيم. يمكن 


In [11]: my. dict = {'First': 'Python', 'Second': Julia" 
In [17]: my. dict.keys() 

Out [12]: dict, keys(['First', Second']) 

I [3] my. dict.values() 

Out [13]: dict, values(['Python', 'Julia']) 

In [14]: my. dict.items() 

Out [14]: dict, 1tems([('First', Python, ('Second', 'Julia")]) 


المجموعات 


يتم تعريف المجموعة (Set)‏ على أنها مجموعة من العناصر الفريدة التي لا تتبع ترتيبًا معيتا. 
تستخدم المجموعات عندما يكون وجود QoS‏ مجموعة من الكائنات أكثر أهمية من عدد 
المرات التي تظهر فيها الكائنات أو ترتبها.في المجموعات, إذا تكررت البيانات أكثر من Bye‏ يتم 
إدخالهاني المجموعة مرة واحدة فقط. على عكس الصفوف. فإن المجموعات قابلة للتغيير؛ أي 
أنه يمكن تعديلها أو إضافتها أو استبدالها أو إزالتها. يمكن عرض مجموعة مثال على النحو التالي: 


set_a = {"item 1", "item 2", "item 3",....., "item n"} 


In [1]: my_set = {2, 2, 3, 1, 4, 5, 5, 5} 
In [2]: my. set 
Out [2]: ale 2 3 4, 5} 


In [3]: my_set = {8, 1, 5} 
In [4]: my_set.add(6) 

In [5] my. set 

Out [5]: 11, 5, 6, 8} 


هنالك elle‏ تطبق على مجموعات الرياضيات مثل الاتحاد (Union)‏ والاشتراك 
(Interaction)‏ وما إلى ذلك. يوضح المثال التالي المجموعة المكونة من اتحاد مجموعتين: 


In [3]: a= 11, 2, 8, 4, 5} 

In [4]: b = {6, 4, 5, 1, 3, 8, 7} 
In [5]: a.union(b) 

Out [5] MZ 9 4 5,6, 7. 8) 


هياكل التحكم والحلقات 

في الحياة اليومية » نتخذ القرارات كل يوم ونتخذ الخطوات التالية ty‏ على القرارات التي 
نتخذها. لذا فإن جميع أنشطتنا اليومية تعتمد على القرارات التي نتخذها. ينشأ موقف مشابه في 
لغة البرمجة حيث يتعين علينا اتخاذ بعض القرارات ويتم تنفيذ البرنامج Fly‏ على ذلك. في لغة 
البرمجة . يتم ذلك عن طريق هياكل التحكم. ببساطة » التحكم في التدفق في البرمجة هو تسلسل 
عمليات محددة. لنبدأ بمثال بسيط » لنفترض Ul‏ نريد أن يكون لدينا برنامج نصي يعمل في ظل 
ظروف مختلفة. على سبيل المثال » إذا قمنا بقياس درجة حرارة الهواء عند 3 درجات مئوية . 
فسيتم طباعة "الهواء بارد" » ولكن إذاكانت درجة الحرارة 21 درجة dy he‏ » فسيتم طباعة "الهواء 
ساخن". في هذه الحالة » يتم فحص بعض الشروط ووفقا للشرط e‏ يتم تنفيذ المهمة (تتم طباعة 


عبارة معينة). 


الاوامر الشرطية 

في لغات البرمجةء في معظم الأحيان في المشاريع . يتعين علينا التحكم في تنفيذ برنامجنا. 
بمعنى ST‏ نريد تنفيذ بعض الأوامر فقط في De‏ استيفاء الشروط المحددة. يتم إنشاء البيانات 
الشرطية ‏ المعروفة aÍ‏ باسم بيانات القرار ‏ للقيام بذلك والتصرف Eby‏ على ما إذا كان شرط 
معين صحيحًا أم خطأ. في بايثون يمكننا اتخاذ القرارات باستخدام الأوامر التالية: 


if „l o 

if-else | e 

elif „1 e 

e‏ امر if-else‏ المتداخلة 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


if امر‎ 


في أوامر التحكم . تكون عبارة 14 هي أبسط أشكالها. ينفذ الشرط ويقيمها على أنها صحيحة أو 


bie 
if condition: 
statement 1 
statement 2 
statement n 
مثال:‎ 
In [1]: num-3 
if (num « 7): 
print("Num is smaller than 7") 
Out [1]: Num is smaller than 7 
m 2 5-2 
b=2 
if (a > b): 
print("a is greater than b") 
Out [2]: a is greater than b 
if-else امر‎ 


باستخدام تعليمة c if-else‏ إذاكان شرط معين صحيحًا . فسيتم تنفيذ العبارات الموجودة داخل 
بلو cif‏ وإذا كان الشرط Cb‏ فسيتم تنفيذ بلوك :else‏ 


if condition: 
statement 1 


else: 
statement 2 


مثال: 
E ^e‏ سال 
b=2‏ 
if (a> b):‏ 
print("a is greater than b")‏ 
else:‏ 
print("b is greater than a")‏ 
Out [I]: bis greater than a‏ 
In É]: passing Score = 70‏ 
my_Score = 59‏ 
if(my_Score >= passing_Score):‏ 
print("Congratulations! You passed the exam")‏ 


الفصل الثاني: مقدمة في بايثون 


Out [2]: 


print("You are passed in the exam") 
else: 

print("Sorry! You failed the exam") 
Sorry! You failed the exam 


elif yol 


بمساعدة أمر elif‏ 2 یمکننا اتخاذ قرار معقد. يتحقق elif Wi‏ من عدة شروط واحدة تلو الأخرى 


In [1]: 


Out [1]: 


وينفذ بلوك الكود هذه إذا تم استيفاء الشرظ: 


if condition-1: 
statement 1 

elif condition-2: 
stetement 2 


elif condition-3: 
stetement 3 


else: 
statement 


مثال: 

num = -1 
if (num < 0): 

print("Number is positive") 
elif (num « 0): 

print("Number is negative") 
else: 

print("Number is Zero") 
Number is negative 


امر if-else‏ المتداخلة 


تعنى عبارة if-else‏ المتداخلة أن if „l‏ أو if-else‏ موجودة داخل بلوك i£‏ أو if-else‏ 5« 


liag‏ بدوره يساعدنا على فحص DY‏ متعددة في برنامج معين. 


1f conditon outer: 
if condition inner: 
statement of inner if 
else: 


statement of inner else: 
statement ot outer if 
else: 
Outer else 
statement outside if block 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


مثال: 
In H: num =0‏ 
if (num != 0):‏ 
if (num > 0):‏ 
print("Number is positive")‏ 
else:‏ 
print("Number is negative")‏ 
else:‏ 
print("Number is Zero")‏ 
Out [1]: Number is Zero‏ 
الحلقات التكرارية 
بصفتنا مبرمجين SB c‏ أحد أهدافنا العامة هو LES‏ تعليمات برمجية فعالة. يجب أن يدور كل 
شيء نقوم به حول توفير تجربة مستخدم جيدة › وتقليل موارد وحدة المعالجة المركزية 2 وإنشاء 
برامج BL‏ قدر ممكن من التعليمات البرمجية. إحدى الطرق التي يمكننا من خلالها تحقيق ذلك 
هي استخدام الحلقات » والتي يوجد منها نوعان في بايثون. تسمح لنا الحلقات بتكرار جزء من 
الكود متى أردنا ؛ طالما تم استيفاء الشرط الذي حددناه. تساعدنا الحلقات في تقليل تكرار الكود 
الخاص بنا » حيث يتيح لنا تشغيا عملية عدة مرات. 


for حلقة‎ 


باستخدام حلقة for‏ » يمكن تمرير أي تسلسل تكراري أو متغير. يمكن أن يكون التسلسل عبارة 


عن سلسلة أو قائمة أو قاموس أو صفوف أو مجموعة. LAS‏ استخدام حلقة for‏ للتكرار والتنقل 


على النحو التالى: 
for iterator var in sequence:‏ 
statements(s)‏ 
مثال: 


In H: حدم‎ 4 
for 11n range(n): 


print) 
Out [1]: 0 
1 
D 
3 
In DE Str ='Persian' 
for iin Str: 
print(i) 
Out [2]: P 
e 


orn 


n 
In ÛJ: 1= ["machine", "learning", "and"] 
for iin: 
print(1) 
Out [3]: machine 
learning 
and 


while حلقه‎ 


في بايثون » تستخدم حلقة while‏ لتنفيذ مجموعة من الأوامر بشكل متكرر حتى يتم استيفاء 


الوط tay c igna‏ کرو o ll‏ خا etse‏ في co‏ ما بعد ات Lc ial i‏ 
استخدام حلقة while‏ هو كما يلي: 


while expression: 
statement(s) 


In H: num = 10 
sum = 0 
i= 
while i <= num: 
sum = sum +i 
Siar I 
print("Sum of first 10 number is:", sum) 
Out [1]: Sum of first 10 number is: 55 
In D: count = 0 
while (count « 3): 
count = count + 1 
print("Hello") 
Out [2]: Hello 
Hello 
Hello 


مثال: 


الدوال 

مُستخدم الدوال (Functions)‏ في البرمجة لمجموعة من التعليمات التي تريد استخدامها 
بشكل متكرر » أو بسبب تعقيدها . فمن الأفضل وضعها في روتين فرعي آخر والاتصال بها عند 
الضرورة. تعتبر الدوال جزءً! مهما من أي لغة برمجة لسببين. أولاً . يسمحون لك بإعادة استخدام 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الكود الذي كتبته. على سبيل المثال c‏ إذاكنت تعمل باستخدام قاعدة بيانات » فيجب عليك Gsh‏ 
التواصل مع قاعدة البيانات وإعلامها بالجدول الذي تريد الوصول إليه. عن طريق كتابة دالة » 
يمكنك القيام بذلك عن طريق كتابة سطر من التعليمات البرمجية في أي برنامج يحتاج إلى 
الوصول إلى قاعدة البيانات. ميزة أخرى لاستخدام دالة للقيام بذلك هي أنه إذا كنت بحاجة إلى 
تغيير نوع قاعدة البيانات التي تستخدمها ٠‏ أو إذا وجدت عيبا في المنطق الذي كتبت فيه الدالة 
لأول مرة » فيمكنك ببساطة عمل نسخة واحدة من الدالة ويمكن للتطبيقات الأخرى استخدام 
النسخة المعدلة ليتم تحديثها على الفور. 

السبب الثاني لاستخدام الدوال هو أنه يسمح لك بالفصل المنطقي بين المهام الفرعية 
المختلفة التي لديك عند العمل على أحد التطبيقات والتي تحتاج دائمًا إلى كتابتها. في مثال 
قاعدة البيانات . تحتاج عمومًا إلى الاتصال بقاعدة البيانات ثم البحث في قاعدة البيانات أو 
إجراء بعض التغييرات. من خلال كتابة دالة للاتصال » والثانية للاستعلام والثالثة للتحديث › 
يمكنك كتابة الجزء الرئيسي من برنامجك باختصار شديد. يصبح تصحيح مثل هذا البرنامج 
أسهل بكثير. لأنه بمجرد تطوير مجموعة من الدوال واختبارها » ليس من الصعب معرفة ما إذا 
كانت المشكلة تتعلق بإحدى الدوال أو في الكود الذي يستدعيها. 

تساعد الدوال في تقسيم برنامجنا إلى أجزاء أصغر. نظرًا OY‏ تطبيقنا ينمو بشكل أكبر وأكبر» 
فإن الدوال تجعله أكثر تنظيماً وقابلية للإدارة. بالإضافة إلى ذلك » يمنع التكرار. يمكن أن تكون 
الدوال داخلية ومعرفة من قبل المستخدم. 


تعريف الدالة 

فيما يلي أربع خطوات لتعريف دالة في بايثون: 

استخدم الكلمة الأساسية def‏ للإعلان عن الدالة » ثم اختر اسمًا للدالة. 

أضف معاملات إلى الدالة. ضعهم بين قوسين وقم بإنهاء السطر بنقطتين (:). 

أضف التعبيرات التى يجب أن تنفذها الدالة. 

return بإنهاء الدالة بعبارة‎ Be ما في الإخراج‎ ES كان يجب أن تعرض الدالة‎ là] 


حم ذخ هن ج 


بدون عبارة return‏ » تقوم الدالة بإرجاع كائن -None‏ 
يمكن تطبيق الخطوات اعلاهني بايثون كما يلي: 


def function name(parameters): 


statement(s) 
return expression 


مثال: 
In H]: def greet(name):‏ 
print("Hello, "+ name + ". Good morning!")‏ 
In É]: greet("ali")‏ 


Out [2]: Hello, ali. Good morning! 
In B]: defabsolute value(num): 
if num >= 0: 

return num 
else: 
return -num 
In [I absolute value(5) 


Om Sl E 
In [4: absolute value(-8) 
Out [4]: 8 


In Dk def evenOdd(x): 
if (x % 2 == 0): 


print("even") 
else: 
print("odd") 
In [6]: evenOdd(5) 
Out [6]: odd 


In [7 evenOdd(8) 
Out [7]: even 


NumPy aiso العمل مع‎ 


NumPy‏ هي مكتبة بايثون تستخدم للعمل مع المصفوفات. السبب في أهمية علم البيانات 
باستخدام بايثون هو أن معظم المكتبات في التعلم JY‏ والتعلم العميق تعتمد على NumPy‏ 
كأحد كتلها الأساسية . OV‏ السرعة والموارد مهمة جدا بالنسبة لها. قد تتساءل عن سبب 
استخدامنا لمصفوفات NumPy‏ عند وجود قوائم بايثون. في قائمة بايثون » يُعرض الغرض من 
المصفوفات. ومع ذلك . فهي بطيئة في المعالجة i‏ وبطءها يكمن في LAS‏ تخزين الكائن في 
الذاكرة. كائن بايثون هو في الواقع مؤشر إلى موقع ذاكرة يخزن كل تفاصيل كائن e‏ مثل البايت 
وقيمته. في حين أن هذه المعلومات الإضافية هي ما يجعل بايثون لغة ديناميكية , إلا أنها SE‏ 
Cal‏ بتكلفة. للتغلب على هذه المشكلة . نستخدم مصفوفات NumPy‏ التي تحتوي على pols‏ 
متجانسة فقط . أي العناصر التي لها نفس نوع البيانات. هذا يجعل تخزين المصفوفات 
ومعالجتها أكثر كفاءة. يهدف NumPy‏ إلى توفير كائن مصفوفة أسرع بما يصل إلى 50 مرة من 
قوائم بايثون التقليدية. على عكس القوائم » يتم تخزين مصفوفات NumPy‏ في مكان مستمر 
في الذاكرة c‏ بحيث يمكن للعمليات الوصول إليها والتعامل معها بشكل فعال. يسمى هذا السلوك 
الإحالة المحلية' في علوم الكمبيوتر. هذا هو السبب الرئيسي وراء كون NumPy‏ أسرع من 


! locality of reference 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


القوائم. أيضًا . يمكن إجراء العمليات الأولية باستخدام مصفوفات NumPy‏ « وهو أمر غير 
ممكن مع قوائم بايثون! هذا هو سبب تفضيل مصفوفات NumPy‏ على قوائم بايثون عند إجراء 
عمليات حسابية على كميات كبيرة من البيانات. 

NumPy‏ يدير مجموعات البيانات الكبيرة بكفاءة وفعالية. بصفتك عالم بيانات أو كخبير في 
ple‏ البيانات . تحتاج إلى فهم شامل ل NumPy‏ وكيف يعمل في بايثون. 


استيراد NumPy‏ 
عندما تريد استخدام حزمة أو مكتبةفي التعليمات البرمجية الخاصة بك. يجب عليك Vol‏ إتاحتها. 
لبدء استخدام NumPy‏ وجميع الدوالفي «NumPy‏ يجب عليك استيرادها. يمكن القيام بذلك 
بسهولة باستخدام أمر الاستيراد: 

In H: import numpy as np 
np إلى‎ NumPy البيانات. نقوم بتقصير‎ ple الذي يستخدمه مجتمع‎ NumPy إلى‎ np يرمز‎ 
على الكود القياسي بحيث يمكن لأي شخص يعمل باستخدام الكود‎ Cal لتوفير الوقت والحفاظ‎ 
الخاص بنا فهمه وتنفيذه بسهولة.‎ 


انشاء مصفوفة NumPy‏ 
تستخدم طريقة nparray()‏ لإنشاء مصفوفة أساسيةني NumPy‏ الشيء الوحيد الذي يجب 
تضمينه هو قيم المصفوفة كقائمة: 

In H: mp.array([1,2,3,4]) 


But varray(ll, 2, ar) 
:dtype تحتوي هذه المصفوفة على قيم عدد صحيح. يمكنك تحديد نوع البياناتفي وسيطة‎ 
In É]:  np.array([1,2,3,4], dtype-np.float32) 
Out B]:  array([1., 2., 3., 4.], dtype=float32) 
باستخدام الأقواس المربعة ([]) يمكننا الوصول إلى عناصر المصفوفة. عند الوصول إلى العناصرء‎ 
تبدأ من 0. هذا يعني أنه إذا كنت تريد الوصول إلى العنصر‎ NumPy ضعفي اعتبارك أن الفهرسةفي‎ 
:0 الأولفي المصفوفة, فيمكنك الوصول إليه باستخدام‎ 
In [J]: g=np.array((5 , 1, 3, 7]) 
Owls 5 


يمكن أيضًا أن تكون مصفوفات NumPy‏ متعددة الأبعاد: 


In M: a-np.array([[1, 5, 2], [6, 8, 1], [10, 3, 11]]) 


a 
Out [4:  array([[1, 5, 2], 
6. 5 1 
[10 8 كا‎ 
In [5]: a[0] 


Out [5]:  array([l, 5, 2]) 
In [6:  a[2] 


Out [6]: array([10, 3, 11])‏ 
m Pk: css OO]‏ 
Out [7]: ii‏ 
المصفوفة الصفرية 
يتيح لك NumPy‏ إنشاء مصفوفة من الأصفار باستخدام طريقة np.zeros()‏ .كل ما عليك 
فعله هو إدخال شكل 'المصفوفة المطلوب: 
In H]:  np.zeros(7)‏ 
Detto same TOC O0‏ 
المصفوفة السابقة عبارة عن مصفوفة ذات بعد واحد. لإنشاء مصفوفة ثنائية الأبعاد c‏ قم بما يلي: 
In Û: np.zeros((2,6))‏ 
Out [2]:  array([[O., 0., 0., 0., O., 0.],‏ 
C 00:901)‏ 0 0:20[ 
المصفوفة الواحدية 
يمكنك أيضًا إنشاء مصفوفة من الواحدات باستخدام طريقة np.ones()‏ 


In 


سم 


1: np.ones(6) 
Oue ite  array([L, 1., 1., 1., 1., 1.]) 

acl!‏ وحذف jjag‏ العناصر 
يمكنك إضافة عناصر إلى المصفوفة الخاصة بك باستخدام طريقة :np.append()‏ 


In H: g=np.array([5, 1, 2, 3, 9, 4, 7]) 


! shape 
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a 
OstHE- array([5, 1, 2, 3, 9, 4, 7D 

In [kt np.append(a, [12,2,1]) 

Oun array 5, 1272.3 9. 4 7 19 02 1) 


يتم استخدام طريقة np.delete()‏ لحذف Gres‏ موقع معين: 


In Û]: a= np.array([5, 1, 2, 3, 9, 4, 7]) 
a 
Proll: rads 152, S O, 


In [4:  np.delete(a, 0) 
Out [4]: array([1, 2 3 9: 4, ri 


بالنسبة لي مبرمج» يعد التعقيد الزمني لكل خوارزمية مهما جدا. يعتبر الفرز عملية مهمة وأساسية 
للغاية قد تستخدمها كعالم بيانات UY Lay‏ من المهم استخدام خوارزمية فرز جيدة BL‏ قدر 
من التعقيد الزمني. تحتوي مكتبة NumPy‏ على مجموعة واسعة من دوال الفرز التي يمكنك 
استخدامها لفرز pole‏ المصفوفة الخاصة بك: 
h DB: a=np.array([5,4,2,5,3,6,8,7,9,1,8])‏ 
np.sort(a, kind='quicksort')‏ 
on DI array([1, 2, 3, 4, 5, 5, 6, ds 8, 8, 9]‏ 
In [6: a= np.array([[8,5,7,4,1,6],‏ 
)]]9,2,3,7,5,1[ 
np.sort(a, kind='mergresort')‏ 
U arav oO 8),‏ 
]957599 152595[ 


تحديد شكل وحجم المصفوفة 
باستخدام endim‏ يمكن الحصول على عدد محاور أو أبعاد المصفوفة: 


In H: ga-np.array([[8,5,7,4,1,6], 
[9,2,3,7,5,1]]) 
a.ndim 
Out [1]: 2 


size‏ يخبرك بالعدد الإجمالي لعناصر المصفوفة: 


In Él: a =np.array([[8,5,7,4,1,6], 
[9,2,3,7,5,1]]) 
a.size 


Out [2]: 12 


يستخدم shape‏ لإيجاد شكل المصفوفة: 


In [ ag =np.array([[8,5,7,4,1,6], 
[9,2,3,7,5,1]]) 
a.shape 
Out [3]: (2, 6) 


antal‏ الفصل الثانى 

" بايثون هي واحدة من أكثر اللغات قيمة وإثارة للاهتمام لتحليل البيانات. 

* بايثون هى واحدة من أسهل اللغات للبدء بها. أيضا . هذه البساطة لا تحد من التسهيلات 
القن واا 

Jupiter Notebook *‏ هو ibl‏ قوية بشكل لا يصدق لتطوير وتقديم مشاريع علم البيانات 
التفاعلية التى يمكن أن تتضمن نص أو صورة أو صونًا أو فيديو بالإضافة إلى تنفيذ التعليمات 
البرمجية. l‏ 

NumPy *‏ هي مكتبة بايثون تستخدم للعمل مع المصفوفات. 

NumPy Gag *‏ إلى توفير كائن مصفوفة أسرع بما يصل إلى 50 مرة من قوائم بايثون 
التقليدية. 


pts]‏ اضافية لمزيد من القراءة 
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التعرف على أنواع البيانات. 
" تحضير وتنقية البيانات. 

" التعرف على تقنيات تجريف الويب. 

" كيفية إدخال البيانات بصيغ مختلفة. 
" التمثيل المرئى للبيانات. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


يدور علم البيانات حول تجربة البيانات الخام أو المنظمة. البيانات هي حافز يمكنه توجيه الأعمال 
في الاتجاه الصحيح e‏ أو على الأقل تقديم رؤى ثاقبة يمكنها بسهولة تنظيم عمليات إطلاق منتج 
جديد أو اختبار تجارب مختلفة. كل هذه العناصر لها عنصر تحفيزي مشترك e‏ وهي البيانات. 
نحن ندخل العصر الرقمي حيث ننتج الكثير من البيانات. عندما تكون هذه البيانات مهمة جد 
في حياتنا c‏ فمن المهم تخزين هذه البيانات ومعالجتها بشكل صحيح دون أخطاء. عند التعامل 
مع مجموعات البيانات » يلعب نوع البيانات دورًا مهما في تحديد استراتيجية المعالجة المسبقة 
التي تعمل لمجموعة معينة للحصول على النتائج المناسبة أو نوع التحليل الإحصائي الذي يجب 
استخدامه للحصول على أفضل النتائج. يتيح لك فهم أنواع البيانات المختلفة اختيار نوع البيانات 
الذي يناسب احتياجاتك وأهدافك. سواء كنت رجل أعمال أو مسوقًا أو عالم بيانات أو محترقًا 
آخر يعمل مع أنواع البيانات » يجب أن تكون على دراية بالقائمة الرئيسية لأنواع البيانات. 


البيانات النوعية' 

تصف البيانات النوعية » أو بيانات الفئويةة USUS.‏ باستخدام مجموعة محدودة من الفئات 
المنفصلة. وهذا يعني أن هذا النوع من البيانات لا يمكن عده أو قياسه بسهولة باستخدام الأرقام 
وبالتالي فهو مقسم إلى فتات. جنس الشخص (ذكر أو أنثى أو غيرهم) هو مثال جيد على هذا 
النوع. يمكن أن تؤدي البيانات النوعية إلى الاجابة على أسئلة مثل "كيف حدث هذا؟" أو BUJ"‏ 
حدث هذا؟". يعد جنس الشخص وألوانه وأعراقه أمثلة على هذا النوع من البيانات. على سبيل 
المثال « تخيل تلميذاً يقرأ فقرة من كتاب في جلسة صفية. يعطي المعلم الذي يستمع إلى الكتاب 
ملاحظات حول كيفية قراءة الطفل لتلك الفقرة. إذا قدم المعلم ملاحظات للطفل على أساس 
البلاغة والنبرة والنطق دون إعطاء درجة . فإن هذا يعتبر Ms‏ على البيانات النوعية. مثال آخر 
يمكن أن يكون علامة تجارية للهواتف الذكية توفر معلومات حول الترتيب الحالي ولون الهاتف 
calli dioses‏ مركن esis Ibit‏ أنها te pola‏ هناك نوعان 
عامان من البيانات النوعية: البيانات الاسمية” والمتسلسلة؟. 


1 Qualitative Data 
2 Categorical Data 
3 Nominal 


4 Ordinal 


Sct الفصل‎ 


البيانات الاسمية 


يتم تعريف البيانات الاسمية على أنها بيانات تُستخدم لتسمية المتغيرات أو عنونتها بدون أي 
كمية. عادة لا يوجد ترتيب جوهري للبيانات الاسمية. على سبيل المثال e‏ يمكن اعتبار لون 
الهاتف الذكي نوع بيانات اسمي. لأننا لا نستطيع مقارنة لون واحد مع الألوان الأخرى. بمعنى 
آخرء لا يمكن القول أن "الأحمر" أكبر من "الأزرق". كمثال ST‏ لون العين هو متغير اسمي له 
عدة CD obs‏ أخضر Quoc‏ ولا توجد طريقة لترتيب هذه الفئات من الأعلى إلى الأدنى. 
البيانات المتسلسلة 

البيانات المتسلسلة هي نوع من البيانات المصنفة بترتيب طبيعي. متغيرات البيانات المتسلسلة 
مدرجة بالترتيب. dole‏ ما يتم ترقيم المتغيرات التسلسلية للإشارة إلى ترتيب القائمة. ومع US‏ 
لا يتم قياس الأرقام أو تحديدها رياضيًا » ولكن فقط يتم تعيينهاكعنوان تعليق. على سبيل «JEJE‏ 
إذا أخذنا في الاعتبار حجم إحدى العلامات التجارية DU‏ فيمكننا تصنيفها بسهولة إلى 
صغيرة ومتوسطة وكبيرة . على التوالي , Fly‏ على علامات الأسماء الخاصة بها. 


تساعدنا هذه التصنيفات على تحديد استراتيجية الترميز التى يمكن تطبيقها على نوع 
البيانات. يعد ترميز البيانات lomo‏ للبيانات النوعية. لأن نماذج التعلم الآلى لا يمكنها 
استخدام هذه القيم بشكل مباشر وتحتاج إلى تحويلها elgJÍ (JI‏ رقمية cla eàLo.Ul yt‏ 


طبيعة رياضية. بالنسبة لأنواع البيانات الاسمية حيث لا توجد مقارنة بين «JU JI‏ يمكن 
استخدام ترميز .one-hot‏ وبالنسبة لأنواع البيانات المتسلسلة» يمكن استخدام joj‏ 
dabel‏ وهو شكل من أشكال العدد الصحيح. 


البيانات الكمية' 


البيانات الكمية هي بيانات قابلة للقياس. بمعنى آخر » يمكن حسابها أو قياسها ويمكن الحصول 
على قيمة عددية لها. سعر الهاتف e SUI‏ والخصم المعروض . وتردد معالج الهاتف الذكي أو 
ذاكرة الوصول العشوائي لهذا الهاتف e‏ كلها تندرج في فة أنواع البيانات الصغيرة. خلاصة القول 
هي أن هناك عددًا لا حصر له من القيم التي يمكن أن تحتوي عليها السمة. على سبيل المثال e‏ 
يمكن أن يختلف سعر الهاتف الذكي من قيمة × إلى أي قيمة. البيانات المتقطعة والمستمرة 
نوعان رئيسيان من البيانات الكمية. 


1 Quantitative Data 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


البيانات المتقطعة' 

البيانات المتقطعة ALG‏ للعد وتحتوي على أعداد صحيحة فقط. عدد مكبرات الصوت المحمولة» 
وعدد الكاميرات . وعدد مراكز المعالج . وعدد بطاقات SIM‏ المدعومة كلها أمثلة على أنواع 
البيانات المنفصلة. 


البيانات المستمرة' 


البيانات المستمرة هي البيانات التي يمكن تقسيمها بشكل كبير إلى مستويات أكثر دقة. يمكن 
قياسه على مقياس” أو بشكل مستمر“ ويمكن أن يكون له أي قيمة عددية تقريبًا. على سبيل 
Stell‏ يمكنك قياس طولك بمقاييس دقيقة للغاية » مثل الأمتار . والسنتيمتر . والمليمترات E‏ 
وما إلى ذلك. يمكنك تسجيل البيانات المستمرة فى قياسات مختلفة لخط العرض ودرجة الحرارة 
والوقت وما إلى ذلك. هذا هو المكان الذي cali‏ فيه الاختلاف الرئيسي مع أنواع البيانات 
المتقطعة. يمكن أن تأخذ المتغيرات المستمرة أي قيمة بين رقمين. على سبيل المثال « بين 60 
و80 سم » هناك ملايين أخرى. من القواعد الأساسية الجيدة لتحديد ما إذاكانت البيانات مستمرة 
أو متقطعة هي أن البيانات مستمرة إذاكان من الممكن خفض نقطة القياس إلى النصف ولا يزال 
الرقم الذي تم الحصول عليه معقولاً. 


بيانات السلاسل الزمنية ° 


سواء كنا نريد التنبؤ باتجاهات السوق المالية أو استهلاك الكهرباء e‏ فإن الوقت عامل مهم يجب 
الآن مراعاته في نماذجنا. على سبيل المثال e‏ سيكون من المثير للاهتمام توقع وقت ذروة استهلاك 
الكهرباء في اليوم. للقيام بذلك c‏ يكفي استخدام بيانات السلاسل الزمنية. بيانات السلاسل الزمنية 
هي سلسلة من الأرقام التي يتم جمعها على فترات منتظمة خلال فترة زمنية. في السلسلة الزمنية 
UU‏ ما يكون الوقت متغيرًا مستقلاآً والهدف عادة هو عمل تنبؤات للمستقبل. 

تحليل السلاسل الزمنية هو طريقة خاصة للتحليل المتسلسل لنقاط البيانات التي تم جمعها 
خلال فترة زمنية. في تحليل السلاسل الزمنية » يسجل المحللون نقاط البيانات على فترات 
منتظمة خلال فترة زمنية » بدلاً من مجرد تسجيل نقاط البيانات بشكل متقطع أو عشوائي. ومع 
ذلك . فإن هذا النوع من التحليل ليس مجرد عملية جمع البيانات بمرور الوقت. ما يميز بيانات 


1 Discrete 

? Continuous 

3 scale 

4 1 
continuum 


? Time Series Data 


FEN 


السلاسل الزمنية عن البيانات الأخرى هو أن التحليل يمكن أن يُظهر كيف تتغير المتغيرات بمرور 
الوقت. بمعنى ST‏ يعد الوقت متغيرًا مهما . لأنه يوضح LAS‏ تنظيم البيانات على طول المسار 
بالإضافة إلى النتائج النهائية. يوفر مصدرًا للمعلومات الإضافية ومجموعة من التبعيات بين 
البيانات. 

يتطلب تحليل السلاسل الزمنية Sole‏ عددًا كبيرًا من نقاط البيانات لضمان الاستقرار 
والموثوقية. تضمن مجموعة البيانات الكبيرة أن لديك ما يكفي من عينات الفهرس وتقليل تحليل 
البيانات الصاخبة. كما أنه يضمن عدم اكتشاف اتجاهات أو bud‏ بعيدة المنال. 

يساعد تحليل السلاسل الزمنية المؤسسات على فهم الأسباب الكامنة وراء الاتجاهات أو 
الأنماط النظامية' بمرور الوقت. باستخدام التمثيل الصوري للبيانات » يمكن لمستخدمي الأعمال 
رؤية الاتجاهات الموسمية واستكشاف سبب هذه الاتجاهات بعمق أكبر. باستخدام نماذج 
التحليل الحديثة » يمكن لهذه الرسوم التوضيحية أن تتجاوز الرسوم البيانية الخطية. عندما تحلل 
المؤسسات البيانات على فترات منتظمة « يمكنها Gal‏ استخدام التنبؤ بالسلاسل الزمنية للتنبؤ 
باحتمالية الأحداث المستقبلية. يعد توقع السلاسل الزمنية جزءًا من التحليل التنبئي. من المرجح 
أن يشير هذا إلى التغييرات في البيانات foo‏ السلوك الموسمي أو الدوري » والتي توفر فهمًا 
أفضل لمتغيرات البيانات وتساعد على التنبؤ بشكل أفضل. 

يستخدم تحليل السلاسل الزمنية للبيانات غير الثابتة ؛ العناصر التي تتقلب باستمرار بمرور 
الوقت أو تتأثر بمرور الوقت. غالبًا ما تستخدم الصناعات مثل التمويل والتجزئة والاقتصاد تحليل 
السلاسل الزمنية > حيث تتغير العملات والمبيعات باستمرار. تحليل سوق الاوراق المالية هو 
مثال رائع على تحليل السلاسل الزمنية في الممارسة. وبالمثل . يعد تحليل السلاسل الزمنية 
Whee‏ للتنبؤ بتغير المناخ ويساعد خبراء الأرصاد الجوية على توقع كل شيء بدءًا من تقرير الطقس 
في الغد وحتى تغير المناخ لسنوات قادمة. أمثلة على تحليل السلاسل الزمنية في الممارسة هي: 


e‏ بيانات الطقس. 

e‏ قياس هطول الأمطار. 

(EKG) قياس معدل ضربات القلب”‎ e 
ه مراقبة الدماغ”.‎ 

f‏ مبيعات ربع سنوية. 


e‏ سعر السهم. 


l Systemic 
2 Heart rate monitoring 


3 Brain monitoring 
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e‏ تداول الأسهم الآلي. 
e‏ سعر الفائدة. 


مجموعة الديانات والميزات 
يمكن غاليًا اعتبار مجموعة البيانات على أنها مجموعة كائنات بيانات لها نفس الخصائص. 
تشمل اسماء أخرى لكائن البيانات: سجلء أو نقطة. أو متجه. أو نمط. أو حدث. أو عنصرء أو 
عينةء أو مثال» أو عرضء أو كيان.في المقابلء يتم وصف كائنات البيانات من خلال عدد من 
السمات التي تمثل الخصائص الرئيسية لكائن cle‏ مثل وقت حدوث الحدث. على سبيل المثال» 
يختلف لون العين من شخص SV‏ وتختلف درجة حرارة الجسم بمرور الوقت. وتجدر الإشارة 
إلى أن لون العين خاصية رمزية بعدد قليل من القيم الممكنة uu)‏ أسود. أزرق» أخضر. إلخ)» 
بينما درجة الحرارة هي خاصية عددية بعدد غير محدود من القيم. الاسماء الأخرى هي متجه أو 
متغير أو عينة أو سمة أو بعد. 

OU‏ ما تكون مجموعة البيانات عبارة عن ملف يكون فيه كل كائنفي صف وكل عمود يتوافق 
مع إحدى ميزات هذه الكائنات. على سبيل LUAM‏ يوضح الجدول 1-3 مجموعة بيانات تحتوي 
على معلومات الطالب. يشير كل صف إلى طالب» وكل عمود عبارة عن ميزة تصف بعض 
جوانب الطالب» مثل رقم الطالب وسنة الالتحاق ومتوسط درجة الدرجات ومجال الدراسة. 


جدول 1-3 مثال على مجموعة بيانات تحتوي على معلومات الطالب 


رقم الطالب سنة الالتحاق المعدل شجال الدراسة 
CERF 18.45 1397 976001‏ 
974120 1397 19.03 علوم حاسبات 
yT 18.95 1399 990245‏ 


الميزات العامة لمجموعة البيانات 
ثلاث خصائص عامة تستخدم عند استخدام العديد من مجموعات البيانات ولها تأثير كبير على 
استخدام تقنيات التعلم الآلي هي: الأبعاد' والتشتت” والدقةة. 


" الابعاد: أبعاد مجموعة البيانات هى عدد الميزات التى تمتلكها الكائنات فى مجموعة 
البيانات. تختلف البيانات منخفضة الأبعاد نوعياً عن البيانات المتوسطة أو عالية الأبعاد. فى 


l dimensionality 
2 sparsity 


3 resolution 
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الواقع e‏ أحيانًا تسمى المشكلات المتعلقة بتحليل البيانات عالية الأبعاد بالمشكلات متعددة 
الأبعاد. لهذا السبب » تعتبر الأبعاد Gale‏ مهما في معالجة البيانات. 

" التشتت: في مجموعة بيانات » يشير المشتت إلى عدد السجلات في جدول ليس له قيمة. 
بمعنى آخر » في بعض مجموعات البيانات » تحتوي معظم خصائص الكائن على قيم 0. من 
الناحية العملية ‏ يعد التبعثر او التشتت ميزة » حيث يجب تخزين وترتيب القيم غير الصفرية 
فقط. هذا يوفر وقتا كبيرًا في الحساب والتخزين. 

" الدقة (دقت العرض): WE‏ ما يكون من الممكن الحصول على بيانات بمستويات مختلفة 
من الدقة . وكذلك تختلف خصائص البيانات باختلاف درجات الدقة. على سبيل المثال « 
يبدو سطح الأرض غير مستو للغاية بدقة تصل إلى بضعة أمتار » ولكنه مسطح Gos‏ بدقة 
تصل إلى عشرات الكيلومترات. تعتمد الأنماط في البيانات Ca‏ على مستوى الدقة. ]15 كان 
مستوى الدقة جيدا جد » فقد لا يكون النمط G yo‏ أو قد يتم حذفه بين الضوضاء. إذا كانت 
الدقة كبيرة جدا e‏ فقد يختفي النمط. على سبيل المثال » تعكس التغيرات في الضغط الجوي 
على مقياس الساعة حركة العواصف وأنظمة الطقس الأخرى. على نطاق عدة أشهر Vc‏ يمكن 
اكتشاف هذه الظواهر. 


أمثلة على البيانات عالية الأبعاد 

توضح الأمثلة التالية بيانات عالية الأبعادفي مجالات مختلف: 

مثال 1: البيانات الصحية 

البيانات عالية الأبعاد شائعةفي مجموعة من البيانات الصحية أن عدد خصائص شخص معين 
يمكن أن يكون كبيرًا De‏ على سبيل JEI‏ ضغط الدم» ومعدل ضربات القلب أثناء الراحة» 
والحالة المناعيةء والتاريخ الجراحي» والطول» والوزنء والحالة؛ إلخ.في مجموعة البيانات هذه 
من الشائع أن يتجاوز عدد السمات عدد المشاهدات. 


مثال 2: البيانات المالية 

البيانات عالية الأبعاد شائعة GAST‏ مجموعات البيانات AILS‏ حيث يمكن أن يكون عدد 
خصائص سهم معين dem eS‏ على سبيل المثال» حجم التداول ونسبة PE‏ ومعدل الأرباح وما 
إلى ذلك.في هذا النوع من البيانات» من الشائع أن يكون عدد السمات أكبر بكثير من عدد 
المشاركات الفردية. 


مثال 3: المحتوى الجيني 
غالبًا ما تحدث البيانات عالية الأبعادفي المحتوى الجينى» حيث يمكن أن يكون عدد سمات 
الجينات لفرد معين هاثلاً. 
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كيفية إدارة البيانات عالية الأبعاد 

لا يمكن تحليل الأبعاد الفردية على نطاق صغيرفي البيانات عالية الأبعاد. قد يستغرق الأمر GUI‏ 
أو شهورًا لإجراء تحليل ذي مغزى يتطلب الكثير من الوقت والمال. سوف يسبب لنا تدريب 
البيانات عالية الأبعاد مشاكل: 


e‏ زيادة الابعاد . تزداد المساحة المطلوبة لتخزين المعلومات. 

-Overfitting إمكانية زيادة الضبط الزائد‎ Gal مع زيادة الأبعاد . تزداد‎ c 

m‏ كلماكبرت الأبعاد  ab‏ تعقيد الوقت في تدريب النموذج. 

* لا يمكننا تصور حجم كبير من البيانات. من خلال تقليل الأبعاد » نقوم بتقليل البيانات إلى 
ثنائية أو ثلاثية الأبعاد لتحسين التمثيل الصوري. 


لذلك. للتعامل مع هذه المشاكل» من الضروري إدارة البيانات عالية الأبعاد. هناك طريقتان 
شائعتان للتعامل مع البيانات عالية الأبعاد: 
1. اختيار ميزات أقل 
الطريقة الأكثر وضوحًا لتجنب التعامل مع البيانات الكبيرة هي ببساطة اختيار ميزات أقل 
من مجموعة البيانات. هناك عدة طرق لتحديد ما إذا كنت تريد إزالة السمات من مجموعة 
البيانات» بمافي ذلك: 


* حذف السمات مع العديد من القيم المفقودة: إذا كان عمود معين في مجموعة 
بيانات يحتوي على كميات كبيرة من البيانات المفقودة . فقد تتمكن من حذفها 
بالكامل دون فقد الكثير من المعلومات. 

* حذف السمات ذات التباين المنخفض: إذا كان عمود معين في مجموعة بيانات 
يحتوي على قيم لا تتغير إلا SUB‏ فقد تتمكن من حذفها » لأنه من غير المحتمل 
أن توفر معلومات مفيدة حول متغير استجابة مقارنة بالسمات الأخرى. 

" استبعاد السمات ذات الارتباط المنخفض مع متغير الاستجابة: إذا كانت سمة معينة 
لا علاقة لها بمتغير الاستجابة محل الاهتمام e‏ فيمكنك على الأرجح إزالتها من 
مجموعة البيانات لأنه من غير المحتمل أن تكون سمة مفيدة في النموذج. 

2. استخراج الميزات 

تقنية أخرى شائعة لإدارة البيانات عالية الأبعاد هي استخراج الميزات. الغرض من استخراج 
الميزات هو تقليل عدد الميزاتفي مجموعة البيانات عن طريق إنشاء ميزات جديدة من 
الميزات الموجودة (ثم حذف الميزات الأصلية). يجب أن تكون مجموعة الميزات الجديدة 
المصغرة هذه قادرة على تلخيص معظم المعلومات الموجودةفي مجموعة الميزات الرئيسية. 
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بهذه الطريقة» يمكن إنشاء ملخص للميزات الرئيسية من خلال الجمع بين المجموعة 
الأصلية. 


يتمثل الاختلاف بين اختيار الميزة واستخراج الميزة فى أن اختيار الميزة يرتب أهمية 
الميزات فى مجموعة البيانات ويتجاهل الميزات الأقل J) &ioal‏ يتم إنشاء ميزات 


جديدة). gags Loiu‏ استخراج الميزات إلى إنشاء ميزات جديدة من الميزات الموجودة 
عن طريق تقليل الميزات. 


جمع البيانات' 


لكل برنامج أهدافه ومتطلباته الخاصة التي يجب الوفاء بها. يجب استخدام استراتيجيات مختلفة 
لتحقيق مخرجات موثوقة في النهاية. تؤدي هذه الحاجة إلى فكرة إنشاء مجموعات بيانات جديدة 
يمكن استخدامها nen GN‏ متنوعة من الأغراض. يعد إنشاء مجموعة بيانات كبيرة أمرًا 
GL‏ إذا تم إجراؤه يدويًا. ولكن يمكن لأساليب مثل تجريف الويب” و زاحف الشبكة أتمتة 
عملية جمع البيانات وتسهيل إنشاء مجموعات البيانات للتحليل. 


تجريف ويب 
في عالم اليوم التنافسي» يبحث الجميع عن طرق للابتكار واستخدام تقنيات جديدة. يوفر 
تجريف الويب حلا لأولئك الذين يرغبون في الوصول GW‏ إلى بيانات الويب المنظمة. يعد 
تجريف الويب مفيدا إذا كان موقع الويب العام الذي تريد تلقي المعلومات منه لا يحتوي على 
واجهة برمجة تطبيقات أو لديه وصول محدود فقط إلى البيانات. 

بشكل cele‏ يتم استخدام التنقيب عن بيانات الويب من قبل الأفراد والشركات الذين يرغبون 
في استخدام الكمية الهائلة من بيانات الويب المتاحة للجمهور لاتخاذ قرارات ذكية. يمكن القيام 
بهذه الطريقة يدويًا باستخدام طرق إدراج النسخ” adel‏ ولكنفي معظم الحالات rat‏ 
استخدام الأدوات الآلية لأنها أقل تكلفة وتعمل بشكل أسرع. يمكن تقسيم عملية تجريف الويب 
بأكملها إلى مراحل مختلفة وشرحها بإيجاز على النحو التالي: 


1 Data collection 
? web scraping 


3 copy-pasting 
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* المرحلة الأولى — جلب البيانات ": في هذه الخطوة » يجب تحديد مواقع الويب التي يمكن 
من خلالها الوصول إلى البيانات. يمكن بعد ذلك إجراء الجلب باستخدام بروتوكول c HTTP‏ 
وهو بروتوكول إنترنت يُستخدم لإرسال الطلبات وتلقيها من خادم الويب. 

" المرحلة الثانية - استخراج المعلومات2: بعد جلب مستندات HTML‏ المطلوبة « فإن الخطوة 
التالية هي استخراج المعلومات التي نحتاجها من موقع الويب. يمكن القيام بذلك باستخدام عدة 
تقنيات مثل HTML bbs‏ و DOM‏ و XPath‏ ومطابقة أنماط النص. 

" المرحلة الثالثة تحويل البيانات 3: بعد استخراج المعلومات المطلوبة من المواقع المطلوبة 
(URL)‏ « ستكون البيانات غير منظمة. يمكن بعد ذلك تحويلها إلى نموذج منظم مثل CSV‏ 
أو جدول بيانات e pdf sh‏ للعرض التقديمي أو التخزين. 

تقنيات تجريف الويب 

هناك العديد من الطرق لتطبيق تجريف الويب » والتي يمكن من خلالها اختيار أفضل طريقة بناءً 
على احتياجات المبرمج. Giy‏ لما سبق » يمكن ملاحظة أن هذه التقنيات تُستخدم في مرحلة 
الاستخراج وتنقسم بشكل أساسي إلى فتتين: تجريف الويب اليدوي وتجريف الويب التلقائي. 
يناقش هذا القسم بعض التقنيات الرئيسية في كل فئة ويوفر أساسًا لاختيار التقنية المناسبة فيما 
تجريف الويب اليدوي 


ليس من المستغرب أن يتم تجريف الويب يدويًا. يُعد إدراج النص التقليدي طريقة يدوية يتم 
فيها نسخ البيانات المراد استخراجها من موقع ويب يدويًا كمجموعة وإدراجهافي مستند. ثم يتم 
جمع OLLI‏ المطلوبة من المجموعة وترتيبها بطريقة منظمة.ني بعض الأحيان. للحصول على 
معلومات آقل» يمكن أن يكون هذا هو أفضل أسلوب. ولكنفي عملية إنشاء مجموعة كبيرة من 
البيانات» يمكن أن تكون هذه التقنية مملة وعرضة للخطأء WY‏ تنطوي على الكثير من العمل 
اليدوي. هذه الطريقة لها العديد من المزايا والعيوب: 
= المزايا 
> يمكن القول إنها أسهل طريقة لتجريف الويب . حيث أنك لست بحاجة إلى تعلم 
مهارات جديدة للقيام بذلك. 
> افراد يسمح للأشخاص بمسح أي نقطة من البيانات وتجنب الأخطاء أو حذف 
البيانات غير ذات الصلة أثناء الاستخراج. 


1 Fetch data 
2 Extracting Information 


3 Data Transformation 
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€ نظرًا لبطء سرعة تجريب الويب اليدوي » فمن غير المحتمل أن يتم حظر الوصول 
إلى موقع الويب الذي تستخرج البيانات منه. 
* العيوب 
> إنها بالتأكيد أبطأ طريقة لتجريف الويب. حتى بأقصى سرعة » يكون الروبوت 
المستند إلى تجريف الويب أسرع في استخراج البيانات من الإنسان. 
> يؤدي العمل البشري Cal‏ إلى خطأ بشري. اعتمادًا على أهمية البيانات » يمكن أن 
يكلفك الخطأ البشري WE‏ 


على الجانب الآخر من تجريف الويب اليدوي يدويةء هناك تجريف ويب تلقائي. تجريف ويب 
تلقائي مشهور بشكل متزايد بسبب سهولة استخدامه وتوفير الوقت والتكلفة. يتم تنفيذ هذا النهج 
من خلال تقنيات مختلفة» والتي سنصفها فيما يلي. هذه الطريقة لها أيضًا العديد من المزايا 
والعيوب: l l‏ 


= المزايا 
> بالنسبة لتجريف الويب e‏ فهو يعمل بسرعة مذهلة « ويستخرج مئات السجلات في 
ثوان. 
< من الول اما lius‏ مل cal Stee‏ التعاصرون eias coles‏ 
مدمجة شديدة البساطة تسمح GV‏ شخص باستخراج البيانات من الويب دون 
الحاجة إلى مهارات البرمجة. 
t‏ العيوب 
> قد يحتاجون إلى بعض التدريب التفصيلي حول كيفية استخدام الآداة نفسها. تعالج 
بعض الأدوات هذه المشكلة من خلال تنفيذ واجهات مستخدم بسيطة. 
> تحاول بعض مواقع الويب بنشاط منع صفحات الويب من تجريف الويب الخاصة 
e TU‏ 
€ عدم وجود تحكم بشري أثناء استخراج البيانات. يوصى بالتحقق من البيانات قبل 
استخدام مجموعة البيانات المستخرجة من مجرفي الويب التلقائيين. 
تحليل HTTP‏ 
بشكل cele‏ تتم عملية تحليل' سلسلة الرموزفي اللغة الطبيعية أو لغة الكمبيوتر أو بنية البيانات 
Gig‏ للقواعد النحوية. dole‏ ما تكون نتيجة تحليل المستند عبارة عن شجرة بها مجموعة من 
العقد التي تمثل هيكلها.في تحليل HTML‏ بعد جلب مستند HTML‏ يتم إنشاء شجرة من العقد 
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أثناء التحليلء aly‏ يمكن من WIE‏ استخلاص معلومات مثل عناوين الصفحات والعناوين 
وفقرات الصفحة عن طريق التعرف على عقد HTML‏ يمكن استخدام بعض OW‏ الاستعلام 
A gol‏ مثل HTQL 5 XQuery‏ لتحليل صفحات HTML‏ واسترداد محتوى الصفحة وتعديله. 
تحليل DOM‏ 
يعد DOM‏ معمارية! أساسية شائعة لإدارة هيكل المستندات التى تعمل على مستندات XML‏ من 
خلال إنشاء واجهة للوصول إلى هيكل هذه المستندات ومحتوياتها. مثل محللات «HTML‏ 
عندما يتم جلب مستند XML‏ وتطبيقه باستخدام محلل DOM‏ يتم تشكيل بنية شجرة تحتوي 
على جميع Raced | pols‏ بمساعدة «DOM‏ يمكن فحص محتويات وهيكل الوثيقة 
واستخدامها للاستخراج. 
تحليل XPath‏ 
XPath‏ تعني XX‏ مسارة XML‏ يمكن استخدام هذه التقنيةفي مستندات XML‏ للوصول إلى 
العناصر المختلفةفي هيكلها ومحتواها. يمكن Caf‏ استخدام XPath‏ للوصول إلى مستندات 
HTML‏ حيث أن لها بنية مشابهة ل XML‏ يتيح SES XPath L‏ عبارات يمكنها الوصول مباشرة 
إلى عناصر HTML‏ بدلاً من فحص الشجرة بأكملها. بشكل عام بعد تحليل DOM‏ يمكن 
استخدام XPath‏ كمجرف ويب لاستخراج البيانات. XPath‏ ليست لغة » إنها تأتيني شكل عبارات 
يجب أن تكون محددة. 
محددات CSS‏ 
تقنية تجريف الويب الشائعة الأخرى لاستخراج البيانات من مستندات HTML‏ هي استخدام 
محددات CSS". CSS‏ لغة تستخدم لدمج مستندات HTML‏ وتصف بشكل أساسي عرض 
المستندات المهيكلة مثل HTML‏ و ely XML‏ على خصائص CSS‏ المختلفةء يتم استخدام 
محددات مختلفة مثل النوع والسمة والمعرف وما إلى ذلك للإشارة إلى بنية ومحتوى موقع 
الويب. يمكن استخدام هذه العناصر لمطابقة واستخراج عناصر .HTML‏ 
مطابقة نمط النص 

بقة نمط النص هي تقنية مطابقة“ تستخدم التعابير النمطية” لمطابقة علامات HTML‏ 


T platform 

2 XML Path Language 

3 Cascading Style Sheets 
" matching technique 


5 Regular expressions 


Sct الفصل‎ 


تؤدي إلى نمط بحث. HTML oY GE‏ يتكون من العديد من السلاسل تقريبّاء يمكن تطبيق 
التعابير النمطية هنا عن طريق مطابقة سلاسل مختلفة. لكن التعابير النمطية قد لا تكون الخيار 
الأول في تحليل HTML‏ حيث توجد فرصة لارتكاب أخطاء مثل العلامات المفقودة. 


مكتبات تجريف الويب 
توجد مجموعة ضخمة من مكتبات البايثون لتجريف الويب. ولكن أيهما يجب أن يتم اختياره 
لمشروع معين؟ أي من هذه المكتبات تتمتع بأكبر قدر من المرونة؟ الغرض من هذا القسم هو 
الإجابة على هذه الأسئلة من خلال مراجعة العديد من مكتبات بايثون الشائعة لتجريف الويب 
التي يجب أن يكون أي شخص مهتم على علم بها. 
Requests‏ 
Requests‏ هي مكتبة بايثون الأساسية لتجريف الويب. يمكنه إرسال طلبات HTML‏ إلى خادم 
الويب لاسترداد البيانات من صفحة الويب. تستخدم هذه المكتبة عملية تجريف الويبفي مرحلة 
إحضار المعلومات. تمنح مكتبة بايثون هذه المستخدمين درجة عالية من المرونة من خلال توفير 
أنواع مختلفة من طلبات HTTP‏ مثل .POST; GET‏ نظرًا oY‏ هذه مكتبة أساسية لا يمكن 
استخدامها إلا لجلب صفحات الويب» فلا يمكن استخدامها بشكل منفصل لجمع البيانات. 
كيف يمكننا استخدام هذه المكتبة؟ يعد الحصول على HTML‏ خام صفحة ويب بسيطة» فأنت 
بحاجة إلى تحليلها واستخراج البيانات التي تحتاجها. دعونا نلقي نظرة على مثال جرفنا فيه 
صفحة ويكيبيديا حول "التعلم العميق". 
Ou‏ ما يتم تضمين مكتبة Requests‏ مكتبات بايثون الداخلية» ولكن إذا لم تتمكن من 
إدخالها لسبب ماء فما عليك سوى تشغيل الأمر التاليفي سطر الأوامر: 
pip install requests‏ » 
بعد تثبيت المكتبة» نحتاج إلى استيرادها إلى مشروعنا. بعد ذلك نحتاج إلى إرسال طلب 
GET‏ إلى عنوان :URL‏ 
In H: import requests‏ 
r —requests.get(https://fa.wikipedia.org/wiki/i-! aJ! ')‏ 
print(r.content)‏ 
Out [1]: b'<!DOCTYPE html>\n<html class="client-nojs"‏ 


lang-"fa" dir="rtl">\n<head>\n<meta_ charset="UTF- 
8"/>\n<title>....... 
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LXML 


كما هو مذكورني القسم السابق» کان لل Requests‏ قيود لا يمكن استخدامها كمحلل. LXML‏ 
هي ill‏ سريعة لتحليل HTML‏ و XML‏ بايثون يمكن استخدامها لتحليل واستخراج البيانات 
من صفحات الويب. هذه المكتبة أسرع من معظم المحللين وتستخدم API‏ بايثون لتسهيل 
استخدامها. لكنها لا تعمل بشكل جيد مع مستندات HTML‏ سيئة التصميم. هذا يجعJ LXML‏ 
أقل مرونة من المكتبات الأخرى.. 


لتثبيت هذه المكتبة» ما عليك سوى تشغيل الأمر G JEI‏ سطر الأوامر: 


> pip install Ixml 


في هذا JEI‏ نحاول إظهار جميع الروابط الموجودة على صفحة ويب واحدة (ولكننا نعرض 
Cass‏ منها فقطفي الإخراج). نستخدم مكتبة Requests‏ مرة أخرى للحصول على كود HTML‏ 
الخام لصفحة الويب ثم تحليلها باستخدام LLXML‏ 


In H]: import requests 
import Ixml.html 
r =requests.get(‘https://fa.wikipedia.org/wiki/s--|_ Le!) 
content = r.content 
doc = Ixml.html.fromstring(content) 
for element in doc.xpath(‘//a/@href): 

print(element) 

Out [1]: 
https://da.wikipedia.org/wiki/Deep learning 
https://de.wikipedia.org/wiki Deep. Learning 
https://en.wikipedia.org/wiki/Deep. learning 
https://es.wikipedia.org/wiki/Aprendizaje profundo 
https://et.wikipedia.org/wiki/S%C3% BCgav%C3%B5pe 
https://eu.wikipedia.org/wiki/Ikaskuntza_sakon 
https://fi.wikipedia.org/wiki/Syv%C3%A4oppiminen 
https://fr.wikipedia.org/wiki/Apprentissage_profond 
https:/At.wikipedia.org/wiki/Apprendimento_profondo 
https://ms.wikipedia.org/wiki/Pembelajaran dalam 


في مقتطف الشفرة أعلاه. استخدمنا عبارة XPath‏ لتحديد جميع الروابط التي وجدناها 
وطباعتها. 
BeautifulSoup‏ 

BeautifulSoup‏ هي مكتبة بايثون تستخدم لاستخراج المعلومات من ملفات XML‏ و 
HTML‏ تم استدعاء هذه المكتبة لأسباب جميلة WY‏ تساعدك على تحليل البيانات المستخرجة 


ict انسل‎ 


بسهولة والتمرير خلالها واختيار البيانات التى تختارها فقط. اكتسب BeautifulSoup‏ شهرة نظرًا 
لسهولة استخدامه. ولكنه أبطأ من LLXML‏ تتمثل إحدى المزايا المهمة لهذه المكتبةفي أنها مناسبة 
لأي نوع من مواقع الويب (لديها القدرة على التعرف على ترميز' الصفحة وبالتالي تلقي معلومات 
أكثر دقة من نص (HTML‏ ويمكن استخدامها مع Requests‏ لتنفيذ لخطوات الجلب 
والاستخراج الناجحة. يمكن دمجه مع المحلل -LXML‏ 

لتثبيت هذه المكتبة» ما عليك سوى تشغيل الأمر التاليني سطر الأوامر: 


في هذا المثال نحاول تحليل جميع فقرات QUI‏ السابق وطباعة المحتوى (يتم عرض القليل 
منها هنا): 


In H]: import requests 
from bs4 import BeautifulSoup 
r =requests.get(‘https://fa.wikipedia.org/wiki/s--!_ Le!) 
content = r.content 
soup = BeautifulSoup(content, features="html.parser") 
for element in soup.findAll(‘p'): 


print(element.text) 
Out [1]: 


على سبيل المثال »في معالجة الصور e‏ يمكن للطبقات السفلية التعرف على الحواف » بينما قد 

تتعرف الطبقات العليا على ميزات بشرية أكثر أهمية » مثل الحروف أو الوجوه. 

قبل ظهور التعلم العميق c‏ اعتمدت أساليب التعلم SW‏ التقليدية بشكلكبير على التمثيلات (اختيار 

الميزات) المستمدة من البيانات. تتطلب هذه الأساليب Bed‏ مجال الموضوع لإجراء استخراج 

الميزات يدويًا. ومع ذلك » يعد استخراج الميزات يدويًا عملية صعبة وتستغرق وقتا S gh‏ كان 

ظهور التعلم العميق قادرًا على استبدال هذه الأساليب التقليدية بسرعة. لأنه يمكنه استخراج 

الخصائص تلقاتيًا لتناسب أي مشكلة 
في مقتطف الشفرة السابق» طلبنا من BeautifulSoup‏ استخدام المحلل اللغوي 
"html. parser"‏ للمحتوى المستخرج وتحديد جميع علامات «P»‏ لنا. 
Selenium‏ 

المكتبات المذكورة حتى الآن لها قيود لا يمكنها العمل مع مواقع الويب المصممة باستخدام 
يعد العمل مع صفحات الويب الديناميكية أحد أكبر التحدياتفي تجريف الويب» لكن Selenium‏ 
هى واحدة من مكتبات بايثون التى يمكنها التغلب على هذه المشكلة. Selenium‏ هى أداة مفتوحة 
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المصدر قائمة على الويب وبرنامج تشغيل ويب » مما يعني أنه يمكنك استخدامها لفتح صفحة 
ويب . والنقر فوق زر والحصول على النتائج. 

على الرغم من قوتهاء يعتبر Selenium‏ أداة بدائية. كما يسمح للشفرة بتقليد السلوك البشري. 
ومع ذلك فإن أحد القيود الرئيسية لهذه المكتبة هو تنزيل وتنفيذ JavaScript‏ لكل صفحة» مما 
يجعل العمليات أبطأ وغير مناسبة للمشاريع الكبيرة. 

لتثبيت هذه المكتبة» ما عليك سوى تشغيل الأمر التاليفي سطر الأوامر: 


> pip install selenium 
يتطلب مساعدة المكتبات‎ Y لتنزيل محتويات صفحة الويب‎ Selenium لاحظ أن استخدام‎ 


الأخرى. حيث يمكن Selenium‏ أن يفعل كل شيء بمفرده! بمجرد إخبارنا لبرنامج تشغيل الويب 
tst‏ سنستخدم chromedriver‏ وأي URL ol ee‏ يجب T ol‏ نحتاج إلى تحديد ما نبحث 


عنهني البيانات المستخرجة.في هذا المثال» Wyle‏ الحصول على جميع الروابط مرة أخرى: 


In from selenium import webdriver 
UE from webdriver manager.chrome import ChromeDriverManager 
import requests 
from selenium import webdriver 
chrome options = webdriver.ChromeOptions() 
chrome options.add argument( --headless") 
chrome options.add argument('--no-sandbox") 
chrome options.add argument('--disable-dev-shm-usage") 
wd = webdriver.Chrome('chromedriver',chrome options-chrome options) 
driver-webdriver.Chrome('chromedriver',chrome options-chrome option 
s) 
driver.get('https://fa.wikipedia.org/wiki/- ملعتll')‎ 
links = driver.find elements by. tag name('a) 
for element in links: 
print(element.get_attribute(href’)) 
em https://da.wikipedia.org/wiki/Deep learning 
ud https://de.wikipedia.org/wiki/Deep Learning 
https://en.wikipedia.org/wiki/Deep learning 
https://es.wikipedia.org/wiki/Aprendizaje profundo 
https: //et. wikipedia. org/wiki/S%C%3BCgav%C%3B5pe 
https://eu. wikipedia. org/wiki/Ikaskuntza sakon 
https://fi. wikipedia. org/wiki/Syv%C%3A4oppiminen 


الفصل الثالث: البيانات 


اعتمادًا على طبيعة البيانات» يمكن تخزينهافي مجموعة متنوعة من التنسيقات. تخزن بعض 
التنسيقات البيانات بطريقة يمكن للآلات التحكم فيها بسهولة؛ بينما يقوم البعض الآخر بتخزين 
البيانات بطريقة يمكن للبشر قراءتها. مستندات Microsoft Word‏ هي مثال على هذا الأخير.في 
المقابل» CSV‏ و ISON‏ و XML‏ هي أمثلة على الطريقة الاولى.في هذا القسم. سنناقش أولاً 
بإيجاز كل من تسيقات تخزين البيانات هذه ثم نفحص LAS‏ قراءة هذه الملفات التي يتحكم 
فيها الجهاز. 


)' (قيم مفصولة بفواصل‎ CSV 
يتم فصل أعمدة البيانات‎ «CSV ملف‎ G.CSV أول ملف يمكن للأجهزة قراءته هو ملف‎ 


بفواصل. هذه طريقة لتبادل البيانات المهيكلة بين التطبيقات التي لا تحتاج بالضرورة إلى 
التحدث مباشرة مع بعضها البعض. 


كيفية استيراد بيانات CSV‏ فى بايثون 
هناك عدة طرق لقراءة ملف CSV‏ يستخدم وحدة CSV‏ أو مكتبة :pandas‏ 
" وحدة icsv‏ وحدة CSV‏ هى إحدى وحدات بايثون التى توفر فتات لقراءة وكتابة بيانات 
الجدول بتنسيق ملف .CSV‏ 
= مكتبة :pandas‏ مكتبة pandas‏ هي إحدى مكتبات بايثون مفتوحة المصدر التي توفر 
أدوات وتقنيات تحليل البيانات. 
استخدام csv.reader()‏ 
باستخدام بضعة أسطر من التعليمات البرمجية أدناه» يمكن لبايثون فتح ملف بيانات CSV‏ 
csv.readerO‏ لقراءة ملف data. csv‏ لتعيين البيانات إلى القوائم: 


In H]: import csv 


# opening the CSV file 
with open('data.csv', mode —'r)as file: 


# reading the CSV file 


1 Comma-Separated Values 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


csvFile = csv.reader(file) 


# displaying the contents of the CSV file 
for lines in csvFile: 
print(lines) 
Out [1]: 

[‘id', name! 'age', 'Field of Study'] 
['9396321', 'sara', '26', ‘electrical engineering" 
['9496328', 'mahsa', '24', 'Computer Engineering] 
['9896325', 'maryam’', '23', 'computer science'] 
['9496352', 'sepideh', '25', 'electrical engineering'| 
['9896389", 'sima', '26', computer science'] 
['9896325', 'mina', '21', 'electrical engineering] 


S‏ يتم فتح ملف CSV‏ باستخدام طريقة open)‏ الوضع T‏ (يحدد وضع القراءة عند فتح 
ملف) والذي يُعيد كائن الملف. بعد ذلك يتم تخزين إخراج الدالة desv.reader(file)‏ متغير 
.csvFile‏ يحتوي المتغير csvFile‏ الآن على قارئ CSV‏ بالملف المفتوح. يتيح لنا قارئ CSV‏ 
هذا عرض بيانات ملفاتنا بسهولة باستخدام أوامر بايثون البسيطة. 
ملاحظة: تستخدم الكلمة المحجوزة "with"‏ جنا إلى جنب مع طريقة ley copen)‏ تبسط 
استخدام csv.DictReader()‏ 
تشبه هذه الطريقة الطريقة السابقة  Yol‏ يتم فتح ملف CSV‏ باستخدام طريقة copen()‏ ثم يتم 
تعيين البيانات الموجودة فى ملف CSV‏ إلى قاموس باستخدام كلاس DictReader‏ من وحدة 
CSV‏ 

In Hh import csv 


# opening the CSV file 
with open(data.csv', mode —'r)as file: 


# reading the CSV file 
csvFile = csv.DictReader(file) 


# displaying the contents of the CSV file 
for lines in csvFile: 
print(lines) 
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Out [1]: 


OrderedDuict([('id', 9396321), (name’, 'sara’), (‘age', '26'), 
(‘Field of Study’, 'electrical engineering’)]) 

Ordered Dict([(‘id', '9496328'), ('name', 'mahsa'), ('age', 
'24'), (Field of Study’, 'Computer Engineering")]) 
Ordered Dict([(‘id', '9896325'), ('name', 'maryam'’), (‘age’, 
'23'), (Field of Study’, 'computer science')]) 

Ordered Dict([(id', '9496352'), (name', 'sepideh’), ('age', 
'25'), (Field of Study’, 'electrical engineering’)]) 

Ordered Dict([(‘id', '9896389'), (name’, 'sima’), (‘age’, 
'26'), (‘Field of Study’, 'computer science')]) 

Ordered Dict([(‘id', '9896325'), (name'’, 'mina’), ('age', '21'), 
(‘Field of Study’, 'electrical engineering")]) 


pandas.read csv() استخدام‎ 


قراءة ملف CSV‏ باستخدام دوال 425% pandas‏ أمر سهل وبسيط للغاية. تستخدم طريقة 


BB [HER 


Out [1]: 


.CSV ملف‎ UL لقراءة‎ pandas الخاصة بمكتبة‎ read, csv() 


import pandas 


# reading the CSV file 
csvFile = pandas.read_csv(‘data.csv') 


# displaying the contents of the CSV file 
print(csvFile) 


id name age Field of Study 
9396321 sara 26 electrical engineering 
9496328 mahsa 24 Computer Engineering 
9896325 maryam 23 computer science 
9496352 sepideh 25 electrical engineering 
9896389 sima 26 computer science 
9896325 mina 21 electrical engineering 


2 نر وح دن حر أن 


في البرنامج «Sel‏ تقوم طريقة read csv()‏ الخاصة بمكتبة pandas‏ بقراءة ملف data.csv‏ 


وتعيين بياناته إلى قائمة ثنائية الأبعاد. 


mn‏ تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


)' (لغة توصيف النص القابلة للتوسعة‎ XML 


تم تصميم KML‏ بحيث يمكن قراءته بواسطة كل من البشر Vy‏ لذلك يمكن استخدامه 
لتخزين البيانات ونقلها.في العالم الحقيقي» تحتوي أنظمة الكمبيوتر وقواعد البيانات على بيانات 
بتنسيقات غير oY Giles‏ بيانات XML‏ يتم تخزينهاني نص عادي» مما يوفر طريقة مستقلة 
عن البرامج والأجهزة لتخزين البيانات. هذا يجعل إنشاء البيانات التي يمكن مشاركتها بواسطة 
تطبيقات مختلفة أسهل بكثير. هنا مثال على صفحة XML‏ 
<?xml version="1.0" encoding="UTF-8"?>‏ 
<breakfast_menu>‏ 
<food>‏ 
<name>Belgian Waffles</name>‏ 
<price>$5.95</price>‏ 
<description>‏ 
Two of our famous Belgian Waffles with plenty of real maple syrup‏ 
</description>‏ 
<calories>650</calories>‏ 
</food>‏ 
<food>‏ 
<name>Strawberry Belgian Waffles</name>‏ 
<price>$7.95</price>‏ 
<description>‏ 
Light Belgian waffles covered with strawberries and whipped cream‏ 
</description>‏ 
<calories>900</calories>‏ 
</food>‏ 
</breakfast_menu>‏ 


كيفية استيراد بيانات XML‏ فى بايتون 

توفر L‏ وحدة ElemenTree‏ العديد من الأدوات لمعالجة ملفات XML‏ هذه الوحدة متاحة 
في مكتبة بايثون القياسية . لذلك لا تحتاج إلى تثبيت أي وحدات خارجية لاستخدامها. توفر 
الوحدة النمطية ElementTree‏ طرقا لعرض مستند XML‏ بالكامل على شكل شجرة. لقراءة 
ملف ۷1× « ندخل Vol‏ كلاس ElementTree‏ في مكتبة XML‏ بعد ذلك » انقل اسم ملف 
XML‏ إلى دالة ElementTree.parse()‏ لبدء التحليل. ثم نحصل على علامة جذر ملف XML‏ 
باستخدام -getroot()‏ ثم نعرض علامة جذر ملف XML‏ يتم استخدام root[0].attrib‏ للحصول 
على خصائص العلامة الفرعية للجذر. بافتراض أن لدينا ملف XML‏ على النحو التالي: 


«model» 


1 eXtensible Markup Language 


Ste ai 


«child name=” Acer" qtyz"12"» Acer is a laptop</child> 
«unique? Add model number here</unique> 
«child namez"Onida" qty=”10”>Onida is an oven</child> 
«child name=” Acer" qty=”7”>Exclusive</child> 
«unique? Add price here</unique> 
«data» Add content here 
«family» Add company name here</family> 
«size? Add number of employees here</size> 
</data> 
</model> 


يوضح مقتطف الكود التالي كيفية قراءته باستخدام وحدة ElemenTree‏ في بايثون: 
In H]: import xml.etree.ElementTree as ET‏ 


# Pass the path of the xml document 
tree = ET.parse('data-text.xml") 


# get the parent tag 
root = tree.getroot() 


# print the root (parent) tag along with its memory 
location 
print(root) 


# print the attributes of the first tag 
print(root[0].attrib) 


# print the text contained within first subtag of the 5th 
tag from the parent 
print(root[5][0].text) 
Out [1]: 
«Element 'model' at 0x0000028C44F2F548> 
{name': 'Acer', 'qty': '12"} 
Add company name here 
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)' (ترميز الكائنات باستعمال جافا سكريبت‎ JSON 


JSON‏ هو تنسيق تبادل بيانات خفيف وشائع ليس من السهل على البشر قراءته وكتابته 
فحسب . بل يسهل أيضًا على الآلات تحليله وإنشاته. إنه أيضًا أحد أكثر تنسيقات البيانات شيوعًا 
التى تستخدمها مواقع الويب عند نقل البيانات إلى JavaScript‏ على الشاشة. 
تم بناء 15017 على هيكلين: 
t‏ مجموعة من أزواج الاسم والقيمة. في OW‏ مختلفة › يُفهم هذا على أنه كائن أو سجل 
أو قاموس أو جدول تجزئة أو قائمة مفاتيح أو مصفوفة ارتباط. 
" قائمة قيم منظمة. في معظم اللغات . يُفهم هذا على أنه مصفوفة أو متجه أو قائمة أو 
عندما يتم تبادل المعلومات بين المتصفح والخادمة ٠‏ يتم إرسال البيانات كنص فقط. JSON‏ 
هو نص . ویمکننا تحويل أي كائن JavaScript‏ إلى ISON‏ وإرسال JSON‏ إلى الخادم. يمكننا 
des Call‏ أي JSON‏ تم استلامه من الخادم إلى كائنات JavaScript‏ بهذه الطريقة يمكننا 
العمل مع البيانات ككائنات جافا سكريبت بدون تحليل وترجمة معقدة. لنلق نظرة على بعض 
الأمثلة حول كيفية إرسال واستقبال البيانات باستخدام JSON‏ 
1. ارسال البيانات: إذا كانت البيانات مخزنة فى كائن JavaScript‏ » فيمكننا تحويلها إلى 
JSON‏ وإرسالها إلى الخادم. وفيما يلى مثال على ذلك: 
«IDOCTYPE html»‏ 
<html>‏ 
<body>‏ 
<p id=“demo”></p>‏ 
<script>‏ 
var obj = {“name”:“Milad”, "age":29, “state”: “Tehran”};‏ 
var obj JSON = JSON. stringify(obj);‏ 
window.location = "json Demo.php?x-" + obj_JSON;‏ 
</script>‏ 
</body>‏ 
</html>‏ 
vi‏ استلام البيانات: !15 كانت البيانات المستلمة بتنسيق ISON‏ » فيمكننا تحويلها إلى كائن 
JavaScript‏ على سبيل QUAM‏ 
«IDOCTYPE html»‏ 
<html>‏ 
<body>‏ 
<p id="“demo”></p>‏ 
<script>‏ 
var obj JSON = "("name":"Milad", "age":29, "state": "Tehran";‏ 


1] avaScript Object Notation 


2 server 


الفصل الثالث: البيانات 


var obj = JSON.parse(obj JSON); 
document.getElementById("demo").innerHTML-obj.name; 


</script> 
</body> 
</html> 


كيفية إدخال بيانات JSON‏ فى بايثون 


تحميل كائن GISON‏ بايثون سهل CH ALY‏ بايثون حزمة داخلية تسمى ISON‏ يمكن 
استخدامها للعمل مع بيانات JSON‏ توفر لنا وحدة JSON‏ هذه العديد من «à dal‏ من بينها 
يقة loads()‏ تساعدنا على قراءة ملف JSON‏ بافتراض أن لدينا ملف ISON‏ على النحو التالى: 


[ 


{ 


"Name": "Debian", 
"Version": "9", 
"Install": "apt", 
"Owner": "SPI", 
"Kernel": "4.9" 


"Name": "Ubuntu", 
"Version": "17.10", 
"Install": "apt", 

"Owner": "Canonical", 


"Kernel": "4.13" 


"Name": "Fedora", 
"Version": "26", 
"Install": "dnf", 
"Owner": "Red Hat", 
"Kernel": "4.13" 


"Name": "CentOS", 
"Version": "7", 
"Install": "yum", 
"Owner": "Red Hat", 
"Kernel": "3.10" 


"Name": "OpenSUSE", 
"Version": "42.3", 
"Install": "zypper", 
"Owner": "Novell", 
"Kernel": "4.4" 
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"Name": "Arch Linux", 
"Version": "Rolling Release", 
"Install": "pacman", 


"Owner": "SPI", 
"Kernel": "4.13" 
Jr 
( 
"Name": "Gentoo", 
"Version": "Rolling Release", 
"Install": "emerge", 
"Owner": "Gentoo Foundation", 
"Kernel": "4.12" 
Jj 


يوضح مقتطف الكود التالي LAS‏ قراءته باستخدام وحدة BISON‏ بايثون: 

In H: import json 

# Opening JSON file 

json. data = open('data.json').read() 

# returns JSON object as 

# a dictionary 

data = json.loads(json, data) 

# Iterating through the json 

# list 

for item in data: 

print (item) 

Out [1]: 
{'Name': 'Debian', 'Version": '9', 'Install': 'apt', 'Owner': 
'SPI', Kernel: '4.9'} 
Name: Ubuntu. Version '17.10', 'Install': 'apt', 
'Owner': 'Canonical', 'Kernel': '4.13"} 
{'Name': 'Fedora', 'Version': '26', 'Install': 'dnf', Owner" 
"Red Hat', 'Kernel': '4.13"} 
f'Name*": 'CentOS', 'Version': '7', 'Install': 'yum', Owner" 
'Red Hat', 'Kernel': '3.10" 
{Name': 'OpenSUSE'’, 'Version': '42.3', 'Install': 'zypper', 
‘Owner': 'Novell', 'Kernel': '4.4'} 
{‘Name': 'Arch Linux’, 'Version': 'Rolling Release’, 
'Install': pacman', 'Owner': 'SPI', 'Kernel': '4.13% 
{'Name': 'Gentoo', 'Version': 'Rolling Release', 'Install': 
'emerge', 'Owner': 'Gentoo Foundation’, 'Kernel': '4.12'] 


الفصل الثالث: البيانات 


المعالجة المسبقة للبيانات وتحضيرها 


من غير المعقول توقع اكتمال البيانات. قد تكون هناك مشاكل بسبب خطأ بشري أو عيوبفي 
عملية جمع البيانات. قد لا تكون بعض القيم موجودة. وفي حالات أخرى» قد توجد كائنات 
مزيفة أو مكررة. على سبيل المثال» قد تكون هناك حالتان مختلفتان لشخص عاش ^$ d‏ 
عنوانين مختلفين. حتى إذا كانت جميع البيانات متوفرة وتبدو BAe‏ فقد يكون هناك تناقضات» 
على سبيل المثال» يبلغ طول الشخص مترين» لكنه يزن 2 كجم فقط. 

بالإضافة إلى ذلك من النادر ee‏ أن تكون مجموعات البيانات متاحة كما هو مطلوب بواسطة 
خوارزميات علم البيانات. تتطلب معظم خوارزميات علم البيانات هياكل بياناتفي شكل جداول 
بها سجلاتفي صفوف وخصائص في أعمدة. إذاكانت البيانات بتنسيق GET‏ فيجب تعيين البيانات 
بحيث تصبح البيانات هي LII‏ المطلوبة. لذلك يجب تنظيف البيانات وتحويلها. 


تنظيف البيانات 
تنظيف البيانات عملية إعداد البيانات للتحليل عن طريق إزالة أو تعديل البيانات غير الصحيحة 
أو غير الكاملة أو غير الملائمة أو المكررة أو غير المناسبة. عادة ما تكون هذه البيانات غير ضرورية 
أو مفيدةفي تحليل البيانات؛ لأنها قد تعطل العملية أو تقدم نتائج غير digs‏ هناك عدة طرق 
لتنظيف البيانات. اعتمادًا على كيفية تخزين المعلومات والاستجابات. تنظيف البيانات لا تتعلق 
lax‏ بمسح المعلومات لإفساح المجال لبيانات Bate‏ إنها تتعلق بإيجاد طريقة لتعظيم Bo‏ 
مجموعة البيانات. يعتبر تنظيف البيانات عنصرًا أساسيّافي أساسيات علم البيانات OY‏ يلعب دورًا 
مهمّافي عملية التحليل واكتشاف الإجابات الموثوقة. البيانات غير الصحيحة أو غير المتسقة 
تؤدي إلى نتائج غير صحيحة. UD‏ فإن طريقة تنظيف البيانات وفهمها لها تأثير كبير على جودة 
النتائج. 

على سبيل المثال» قد ترغب الحكومةفي تحليل إحصاءات التعداد لتحديد المجالات التي 
clos‏ إلى مزيد من الإنفاق والاستثمارفي البنية التحتية والخدمات.في هذه Ded!‏ سيكون 
الوصول إلى البيانات الصحيحة مهما لمنع القرارات المالية الخاطئة. أوني عالم الأعمالء قد تكون 
البيانات غير الصحيحة مكلفة. تستخدم العديد من الشركات مجموعات بيانات معلومات 
العملاء التي تسجل معلومات مثل معلومات الاتصال والعناوين. على سبيل JESI‏ إذا كانت 
العناوين غير متسقة. فستتحمل الشركة تكلفة dole]‏ إرسال الخطاب أو حتى فقدان العملاء. 


يمكن to jJlgÀJ‏ بسيطة التغلب على خوارزمية معقدة لمجرد أنها Jaai‏ على ally‏ 


كافية وعالية الجودة. 
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القيم المفقودة ' 

في بعض الأحيان قد تكون البيانات بالتنسيق الصحيح» ولكن بعض القيم مفقودة. ضعفي اعتبارك 
جدولًا يحتوي على معلومات العميل التي لا تتضمن بعض أرقام هواتف المنزل. قد يكون هذا 
بسبب أن بعض الأشخاص ليس لديهم هاتف منزلي وبدلاً من ذلك يستخدمون هواتفهم 
المحمولة كهاتف رئيسي.ني gg STOVE‏ قد تفقد البيانات بسبب مشاكلفي عملية جمع 
البيانات. بالإضافة إلى ذلك قد لا تعتبر الشمولية مهمةفي وقت التجميع. على سبيل المثالء 
عندما بدأنافي جمع معلومات العميلء كان ذلك مقصورًا على مدينة أو منطقة معينةء لذلك لم 
يكن من الضروري جمع رمز المنطقة لرقم هاتف. OV‏ قد نواجه مشاكل عندما نقرر التطوير 
خارج تلك المدينة أو المنطقة. إذن ماذا نفعل عندما نواجه بيانات مفقودة؟ لا توجد أفضل إجابة 
واحدة. علينا أن نجد الإستراتيجية الصحيحة ly‏ على الظروف. وجود قيم مفقودةفي بياناتك 
ليس بالضرورة انتكاسة. ومع AUS‏ فهذه فرصة لأداء هندسة الميزات المناسبة لتوجيه النموذج 
من أجل تفسير البيانات المفقودة بشكل صحيح. هناك عدة طرق مختلفة للتعامل مع هذه 
المشكلةء لكن لكل طريقة مزايا وعيوب. تتمثل الخطوة الأولىفي إدارة القيم المفقودةفي e‏ سبب 
عدم وجود قيم. يمكن أن يؤدي تتبع مصدر البيانات إلى تحديد المشكلات النظامية أثناء إدخال 
البيانات أو أخطاء التحويل. غالبا ما تخبرك معرفة مصدر القيمة المفقودة بالطريقة التى يجب 
استخدامها. يمكن استبدال القيمة المفقودة بمجموعة واسعة من البيانات TAS‏ لإدارة 
المشكلة مع تأثير ضتيلني المراحل اللاحقة من عملية علم البيانات. يتم سرد العديد من 
الاستراتيجيات المختلفة لإدارة البيانات المفقودة أدناه: 


Gir "‏ الكائنات أو خصائص البيانات: إستراتيجية بسيطة وفعالة لحذف الكائنات ذات 
القيم المفقودة. ومع ذلك حتى كائن البيانات يحتوي على بعض المعلومات. وإذا كان 
عددًا كبيرًا من الكائنات يحتوي على قيم da ile‏ فقد يكون التحليل الموثوق به صعبًا أو 
مستحيلا. ومع ذلك. إذاكان عدد قليل من الكائناتفي مجموعة البيانات تحتوي على قيم 
مفقودة» فقد يكون حذفها مفيدا. تتمثل الإستراتيجية ذات الصلةفي حذف السمات التي 
تحتوي على قيم مفقودة. ومع ذلك يجب أن يتم الك etam codes‏ ف cla à f‏ 
المحذوفة ميزة مهمةفي التحليل. 

" تقدير القيم المفقودة:ني بعض الأحيان يمكن تقدير البيانات المفقودة بشكل موثوق. على 
سبيل المثال» ضعفي اعتبارك سلسلة زمنية تتغير منطقيًًا ولكن بها بعض القيم المبعثرة 
المفقودة.في مثل هذه الحالات» يمكن تقدير القيم المفقودة (استكمال”) باستخدام القيم 
المتبقية. كمثال آخر» ضعفي اعتبارك مجموعة البيانات التي تحتوي على العديد من نقاط 


D Missing Values 


2 interpolated 
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البيانات المتشابهة.في هذه الحالة» OUS‏ ما تستخدم قيم النقطة القريبة ذات القيمة 
المفقودة لتقدير القيمة المفقودة. إذا كانت السمة متصلةء فسيتم استخدام متوسط قيمة 
سمة الجيران الأقرب. إذاكانت الصفة منفصلةء فيمكن اعتبار القيمة الأكثر شيوعًا للسمة. 
" تجاهل القيم المفقودة أثناء التحليل: هناك طريقة أخرى للتعامل مع البيانات المفقودة 
وهي تجاهل هذه القيم. على سبيل SRI‏ افترض أن الكائنات مجمعة ويجب حساب 
التشابه بين أزواج كائنات البيانات. إذا كان أحد الكائنات أو كلاهما يحتوي على قيم 
مفقودة لبعض الخصائص. فلا يمكن حساب التشابه إلا باستخدام الخصائص التي لا 
تحتوي على قيم مفقودة. 
البيانات البعيدة (المتطرفة) ' 
في التعلم SV‏ لا تقل جودة البيانات Leal‏ عن جودة النموذج أو التصنيف التنبئي. ومع ذلك 
في بعض الأحيانفي مجموعة البيانات» توجد بيانات مسجلة تختلف S BS!‏ عن الحالات 
الأخرى. وتميز نفسهافي ميزة واحدة أو أكثر. هذه البيانات» المعروفة باسم البيانات المتطرفة 
يمكن (وربما ستؤدي) إلى حدوث حالات GLE‏ النتائج التي تم الحصول عليها من خلال 
الخوارزميات والأنظمة التحليلية.في النماذج الخاضعة للاشراف. يمكن أن تخدع البيانات 
المتطرفة عملية التدريب , مما قد يؤدي إلى فترات تدريب أطول أو يؤدي إلى نماذج أقل دقة. 
إن قابلية تفسير نموذج بقيم متطرفة والتعرف على البيانات المتطرفة لهما جانبان مهمان للغاية 
في تحليل البيانات. أولاً ‏ على الرغم من البيانات المتطرفة ‏ قد تكون النتيجة بأكملها عبارة عن 
تحليل تحيز سلبي. ثانيًا » قد يكون سلوك البيانات المتطرفة هو بالضبط ما نبحث عنه. في الواقع» 
يمكن أن تكون البيانات المتطرفة أحيانًا مؤشرات مفيدة. على سبيل المثال » فى بعض تطبيقات 
تحليلات البيانات » مثل اكتشاف الاحتيال في بطاقة الائتمان . يعد تحليل البيانات عن بعد أمرًا 
مهما . حيث قد يكون الاستثناء وليس القاعدة موضع اهتمام المحلل. 


لا يمكن اعتبار البيانات المتطرفة تشوه أو خطأ. ومع ذلک. يشتبه فى Ladi‏ لم يتم 


إنشاؤها بطريقة مماثلة للبيانات الأخرى (الكائنات). 


أسباب توليد البيانات المتطرفة 
فيما يلى بعض الأسباب الشائعة لوجود نقاط متطرفة فى مجموعة بيانات معينة: 
tbs «‏ القياس (خطأ الادوات): يحدث عندما تكون أداة القياس المستخدمة معيبة. 
" أخطاء إدخال البيانات (الأخطاء البشرية): يمكن أن تسبب الأخطاء البشرية e‏ مثل الأخطاء 
التي تحدث أثناء جمع البيانات أو تسجيلها أو إدخالها » مسافات طويلة في البيانات. 


1 Outliers 
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n‏ خطأ تجريبي: تحدث هذه الأخطاء أثناء استخراج البيانات أو أثناء الاختبار. 
ths =‏ معالجة البيانات: يحدث عند معالجة مجموعات البيانات أو استخراجها. 
* خطأ في أخذ العينات: يحدث هذا الخطأ عندما يقوم شخص ما باستخراج البيانات أو 
مزجها من مصدر خاطئ أو من مصادر مختلفة. 
" مقصودة: هذه OVE‏ خارجية مزيفة مصممة لاختبار طرق التشخيص. 
* طبيعية: في عملية إنتاج البيانات وجمعها ومعالجتها وتحليلها . يمكن أن تأتي النقاط 
المتطرفة من مصادر مختلفة وتكون مخفية في أبعاد مختلفة. البيانات التي ليست نتاج 
خطأ يطلق عليها متطرفة طبيعية. 
تأثير البيانات المتطرفة على التحليل 
البيانات المتطرفة لها تأثير كبير على نتيجة تحليل البيانات. فيما يلى بعض التأثيرات الأكثر 


سيوعا: 


" قد يكون لها تأثير كبير على المتوسط والانحراف المعياري. 
* إذا لم يتم توزيع تشتت النقاط المتطرفة بشكل عشوائي ٠‏ فيمكنها تقليل الحالة 
الطبيعية!. 
* يمكن أن تسبب التحيز (Bias)‏ أو تؤثر على التقديرات. 
* يمكن أن تؤثر على الافتراض الأساسي للتوقع (الانحدار) والنماذج الإحصائية الأخرى. 
انواع البيانات المتطرفة 
في علم البيانات elem Vy‏ تنقسم البيانات المتطرفة عمومًا إلى ثلاث فتات رئيسية: 


1. البيانات العالمية البعيدة 2 (النقاط الشاذة): هذه هى أبسط أشكال البيانات المتطرفة. 
إذا انحرفت ikë‏ بيانات واحدة بشكل حاد عن bus Bb‏ البيانات في مجموعة بيانات 
معينة » فإنها تعرف باسم الناتج العالمي. على سبيل c adl‏ في نظام الكشف عن التطفل؛ 
إذا تم توزيع عدد كبير من الحزم في فترة زمنية قصيرة جد » فيمكن اعتبار ذلك ناتجًا 
Galle‏ ويمكن القول إن النظام المعين قد تم اختراقه. 

2 البيانات البعيدة موجه المحتوى ‏ (الشرطية): إذا كان كائن البيانات في مجموعة بيانات 
معينة ينحرف عن أجزاء أخرى من البيانات tly‏ على محتوى (سياق) أو شروط محددة 
فقط. قد تكون نقطة البيانات بعيدة جد بسبب موقف معين وتتصرف بشكل طبيعي في 
مواقف أخرى. لذلك e‏ يجب تحديد المحتوى كجزء من بيان المشكلة من أجل me‏ 


l normality 
2 Global outliers 


3 Contextual outliers 
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نقاط المحتوى متطرفة. يتم تحديد خصائص نقطة البيانات eC,‏ على خصائص المحتوى 
والسلوك. على سبيل المثال » قد تعمل درجة حرارة 40 درجة مئوية كدرجة حرارة متطرفة 
في محتوى "الشتاء" . ولكنها تتصرف كنقطة بيانات عادية في محتوى 'الصيف . 

3. البيانات الجماعية المتطرفة : إذاكانت بعض نقاط البيانات فى مجموعة بيانات معينة 
las‏ كير صن ا رع UI‏ »كفك رشان إلبها clas bs Je‏ 
متطرفة. وتجدر الإشارة إلى أن قيم نقاط البيانات هذه ليست غير عادية بشكل فردي في 
المحتوى أو بشكل ple‏ لتمييز هذا عن المواقع البعيدة » قد نحتاج إلى بيانات سابقة عن 
العلاقة بين كائنات البيانات تلك التي تشير إلى السلوكيات البعيدة. 

كشف النقاط المتطرفة 
هناك عدة طرق للعثور على المواقع المتطرفة. تستخدم كل هذه الطرق أسلوبًا للعثور على قيم 
غير معتادة مقارنة بمجموعات البيانات الأخرى. هنا قمنا بإدراج عدد قليل من هذه التقنيات: 
" الترتيب. الترتيب هو أبسط تقنية لتحليل البيانات المتطرفة. قم بتحميل مجموعة البيانات 
الخاصة بك إلى أي نوع من أدوات معالجة البيانات . مثل جدول بيانات sh)‏ جدول) « وقم 
بفرز القيم حسب الحجم. بعد ذلك » تحقق من نطاق قيم نقاط البيانات المختلفة. إذاكانت 

كل نقطة بيانات أعلى أو أقل بشكل ملحوظ من النقاط GEN‏ في مجموعة البيانات « 

فيمكن اعتبارها عنصرًا بعيداً. طريقة ws‏ عل Jibi mac desc‏ للغاية. 

* باستخدام الرسوم البيانية. طريقة أخرى لتحليل البيانات البعيدة هي الرسوم البيانية. ارسم 

جميع نقاط البيانات على الرسم البياني واعرف النقاط الأبعد عن النقاط الأخرى. باستخدام 

يقة الرسم التخطيطي مقارنة بطريقة الترتيب c‏ يمكننا تصور المزيد من BUS‏ البيانات التي 

تسهل رؤية النقاط المتطرفة. يمكننا تحديد النقاط المتطرفة باستخدام المخططات 

الصندوقية2 وومخططات المدرج التكراري ? ومخططات التشتت A‏ 

= استخدام درجة 2. درجة 2 (الدرجة المعيارية) هي مقياس لعلاقة النقطة بمتوسط جميع 

النقاط في مجموعة البيانات. عند تحقيق الهدف. تتلقى القيم عددًا موجبًا أو سالبًا. من خلال 

حساب درجة 2 لكل نقطة بيانات » من السهل معرفة BUS‏ البيانات التي تتحرك بعيدًا عن 
المتوسط في المتوسط. تفترض هذه الطريقة أن المتغير له توزيع غاوسي. 


1 Collective outliers 
0 boxplot 
7 histogram 
^ scatter plot 
57 = Xk 
d في هذه المعادلة » :د هي الدرجة الأولية » وم هي متوسط العينات و 6 الانحراف المعياري للعينات.‎ 
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البيانات المكررة' 

WE‏ ما تحدث الملاحظات المكررة أثناء جمع البيانات. هناك فرص LEY‏ بيانات مكررة عند 
دمج مجموعات البيانات من مواقع متعددة أو جمع البيانات من خلال تصفح الويب أو تلقي 
البيانات من العملاء أو الفروع المتعددة. يعد حذف هذه البيانات المكررة أحد أكبر المشكلات 
التي يجب مراعاتهاني هذه العملية. 


البيانات غير الضرورية' 
البيانات غير ذات الصلة أو غير الضرورية هى تلك البيانات غير المطلوبة Gr‏ وليست مناسبةفي 
سياق المشكلة التى نحاول کا على «isl Dos‏ إذا قمنا بتحليل بيانات الصحة العامة فإن 
رقم الهاتف 230 عله LATUR‏ إذاكنت تريد تحليل بيانات الجيل ede!‏ لكن مجموعة 
البيانات الخاصة بك تتضمن الأجيال القديمة» فيجب عليك حذف تلك الملاحظات غير ذات 
الصلة. هذا يمكن أن يجعل التحليل أكثر كفاءة ويقلل من الالتباس حول هدفك الرئيسي. 
يمكنك bt‏ حذف جزء من البيانات (ow)‏ غير ذي صلة. خلاف SUS‏ اكتشف مصفوفة 
الارتباط بين متغيرات السمة. وحتى إذا لم تلاحظ أي ارتباط يجب أن JUS‏ شخصًا متخصصًا 
في هذا المجال. ربما تكون الميزة التي تبدو غير ملائمة لك وثيقة الصلة جدا من منطقة اخرى 
مثل المنظور السريري. 


تحويل البيانات' 
يجب تحويل البيانات إلى نظام قابل للقراءة ومتوافق. فيما يلي بعض العمليات الهامة التي يتم 
استخدامها لتحويل البيانات. 


التجميع ' 

تجميع البيانات هو طريقة يتم فيها جمع البيانات الأولية واستخدامها بإيجاز للتحليل. على سبيل 
المثال» يمكن جمع البيانات الأولية خلال فترة زمنية لتقديم إحصائيات مثل المتوسط e‏ والحد 
gol‏ والحد الأقصى. والمجموع. بعد تجميع البيانات وكتابتها كتقرير. يمكنك تحليل البيانات 
المجمعة لاكتساب رؤى حول مصادر محددة. بمعنى آخر. يمكن أن يمكن تجميع البيانات 
المحللين من الوصول إلى كميات كبيرة من البيانات وفحصهافي فترة زمنية معقولة. يمكن أن 
يمثل صف من البيانات المجمعة المئات أو الآلاف أو حتى أكثر من البيانات الدقيقة. ضعفي 


1 Duplicate Data 
2 Irrelevant data 
3 Data transformation 


4 Aggregation 
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اعتبارك مجموعة من البيانات التي تتضمن المعاملات التي تسجل المبيعات اليومية للمنتجات 
في مواقع مختلفةفي متجر لأيامني السنة. تتمثل إحدى طرق تجميع المعاملاتفي مجموعة 
البيانات هذهني استبدال جميع المعاملاتفي متجر بمعاملة واحدة. هذا يقلل من مئات أو آلاف 
المعاملات التي تحدث Gey‏ متجر معين ويقلل من عدد كائنات البيانات إلى عدد المتاجر. 


تتضمن أمثلة البيانات المجمعة ما يلى: 


o"‏ نسبة إقبال الناخبين حسب المقاطعة أو المدينة. لا يتم توفير سجلات الناخبين بشكل 
منفصل Lib.‏ العدد الإجمالي للأصوات لمرشح في دائرة انتخابية معينة. 

t‏ متوسط عمر العميل حسب المنتج. لم يتم تحديد كل عميل بشكل منفصل « ولكن 
oh‏ لكل منص يع محري ترط مر العميل. 

m‏ عدد العملاء حسب الدولة. بدلا من مراجعة كل عميل » يتم توفير عدد من العملاء من 


كل بلد. 


التقطيع ' 
غالبا ما نواجه البيانات التي يتم جمعها من العمليات المستمرة مثل درجة الحرارة والضوء 
المحيط وسعر سهم الشركة. لكنني بعض الأحيان نحتاج إلى تقسيم هذه القيم المستمرة إلى 
أجزاء أكثر قابلية للتحكم oY)‏ بعض خوارزميات التعلم «UNE‏ وخاصة خوارزميات التصنيف. 
تتطلب البيانات لتكون سمات دفعة). يسمى تعيين البيانات من القيم المستمرة إلى القيم 
المنفصلة بالتقطيع. بتعبير col‏ يعد تحديد البيانات طريقة لتحويل قيم ميزات البيانات المستمرة 
إلى مجموعة محدودة من المسافات مع الحد الأدنى من فقدان البيانات. يمكننا فهم هذا المفهوم 
بمساعدة مثال. لنفترض أن لدينا سمة مثل العمر بالقيم الواردة أدناه: 
1,5,9,4,7,11,14,17,13,18,19,31,33,36,42,44,46,70,74,78,77 | العمر 
يوضح الجدول أدناه هذه البيانات بعد التقطيع: 


العمر العمر العمر العمر السمة 
8 31,33,36,42,44,46 11,14,17,13,18,19 1,5,4,9,7 
المسنين الكبار الشياب الاطفال بعد التقطيع 


[d T Jl 
تسمح هذه العملية بإبراز أنماط البيانات المهمة. يمكن أن يساعد تنعيم البياناتفي التنبؤ‎ 


1 Discretization 


2 Smoothing 
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بالاتجاهات. على الرغم من أن تنعيم البيانات يمكن أن يساعدني كشف الأنماطفي البيانات 
المعقدةء إلا أن تنعيم البيانات لا يوفر بالضرورة تفسيرًا للموضوع أو الأنماط التي تساعدفي 
التعرف عليه.في بعض الأحيانء قد يؤدي تنعيم البيانات إلى إزالة نقاط البيانات القابلة للاستخدام. 
إذاكانت مجموعة البيانات موسمية ولا تعكس بشكل كامل الواقع الناتج عن نقاط البيانات» فقد 
يؤدي ذلك إلى تنبؤات غير صحيحة. 


التحجيم' 
التعلم JY‏ مثل صنع عصير مختلط. إذا أردنا الحصول على أفضل عصيرء فعلينا أن نخلط جميع 
الفواكه ليس Gis‏ لحجمها ولكن Gig‏ لنسبها المناسبة. وبالمثلءفي العديد من خوارزميات التعلم 
«I‏ لجلب جميع الميزاتفي موقف ely‏ يتعين علينا التحجيم حتى لا نؤثر على عدد كبير 
من النماذج لمجرد حجمها الكبير. تعد ميزات Perel‏ التعلم الآلي واحدة من أهم الخطوات 
في معالجة البيانات قبل إنشاء نموذج التعلم الآلي. يمكن أن يفرق التحجيم بين نموذج التعلم 
الآلي السيئ والنموذج الأفضل. 

أكثر تقنيات تحجيم السمات شيوعًا هي التوحيد القياسي3 والتسوية*. يتم استخدام التوحيد 
عندما نريد تقييد قيمنا بين رقمين» عادة بين ]0:1[ أو [1:1-]. بينما يحول التسوية البيانات 
إلى متوسط صفر وتباين 1. 
سبب تحجيم البيانات؟ 
خوارزميات التعلم الآلي ترى الأرقام فقط. ومن ثم إذا كان هناك اختلاف كبيرني نطاق eli I‏ 
فإنهم يضعون الافتراض الأساسي ob‏ الأرقامني النطاق الأعلى لها مزايا. وهكذاء يبدأ هذا العدد 
الكبيرفي لعب دور أكثر حسماً أثناء تدريب النموذج. بالإضافة إلى els‏ تعمل خوارزميات التعلم 
الآلي على الأرقام ولا تعرف ما يمثله الرقم. يبلغ وزنه 10 جرامات وسعره 10 دولارات» وهو 
يمثل شيئين مختلفين GL‏ وهو أمر واضح للبشرء ولكن بالنسبة للنموذج» كلاهما يعتبر ميزة. 
لنفترض أن لدينا خاصيتين للوزن والسعر أن قيم الوزن لا يجب أن تكون أعدادًا أكبر. ومن «e‏ 
تفترض الخوارزمية أنه نظرًا OY‏ الوزن أكبر من السعر, OB‏ الوزن أهم من السعر. لهذا السبب. 
تلعب هذه الأرقام الأكثر أهمية دورًا أكثر حسمآني تدريب النموذج. OF WY‏ تحجيم السمات 
مطلوب لإحضار جميع السماتفي موقف واحد دون أي أهمية أولية. 


i Scaling 
? Feature scaling 
? Standardization 


4 normalization 
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سبب آخر لتطبيق تحجيم السمات هو أن عددًا صغيرًا من الخوارزميات» مثل الشبكة العصبية 
مع الانحدار الاشتقاقي» تتقارب بشكل أسرع مع تحجيم الميزة من دونها (الشكل 1-3). 


الانحدار الاشتقاقى 


التوديد القياسى' 

التوحيد القياسي للبيانات هو أسلوب مهم يتم إجراؤه كخطوة معالجة مسبقة قبل العديد من 
نماذج التعلم الآلي لتوحيد نطاق ميزات مجموعة بيانات الإدخال. يحدث التوحيد القياسي عندما 
تختلف خصائص مجموعة بيانات الإدخال S ES!‏ نطاقها. بعبارات أبسط عندما يتم 
قياس البيانات بوحدات قياس مختلفة (على سبيل JE‏ كيلوغرامات. آمتارء كيلومترات, إلخ). 
تسبب هذه الاختلافاتفي نطاق الميزات الأساسية مشاكلفي العديد من نماذج التعلم الآلي. على 
سبيل المثال» بالنسبة للنماذج التي تستند إلى حساب المسافة: إذا كان لإحدى الخصائص نطاق 
واسع من القيم» يتم ضبط المسافة بواسطة خاصية معينة. لنفترض أن لدينا مجموعة بيانات ثنائية 
الأبعاد بخاصيتين للطول بالأمتار والوزن بالكيلوجرام» والتي تتراوح بين ]1 إلى 2] متر و [30 
إلى 90] كجم» على التوالي. بغض النظر عن النموذج القائم على المسافة الذي تستخدمه بناءً 
على مجموعة البيانات هذه فإن سمة الوزن ستسود على سمة الارتفاع وستكون لها حصة أكبر 
في حساب المسافة؛ فقط لأنه يحتوي على قيم أعلى مقارنة بالارتفاع. UI‏ لتجنب هذه 
المشكلة وحلهاء من الضروري تحويل الميزات إلى مقاييس مماثلة باستخدام توحيد البيانات. 


1 Standardization 
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كيفية توحيد البيانات ؟ 
تعتبر الدرجة 7 . والتى تسمى al‏ الدرجة Lal‏ واحدة من أكثر الطرق شيوعا لتوحيد 
البيانات» والتي يمكن إجراؤها عن طريق طرح المتوسط وتقسيمه على الانحراف المعياري لكل 
قيمة لكل سمة. معادلتها الرياضية على النحو التالى: 
x—u‏ 
Z =‏ 
O‏ 


فى هذه المعادلة  .‏ هى الدرجة الأولية » و مم هى متوسط العينة و 6 هى الانحراف المعياري 


بمجرد اكتمال توحيد ULI‏ سيكون لجميع السمات متوسط صفرء وانحراف معياري dal y‏ 
وبالتالي» نفس المقياس. 

متى يتم توحيد البيانات E‏ 

كما ذكرنا سابقاء بالنسبة للنماذج القائمة على المسافة يتم إجراء التوحيد لتجنب الميزات ذات 
النطاق الأوسع للتغلب على معيار المسافة. ومع ذلك فإن سبب توحيد البيانات ليس هو نفسه 
بالنسبة لجميع نماذج التعلم الآلي ويختلف من نموذج إلى آخر. يميل بعض مطوري التعلم الآلي 
إلى تخصيص بياناتهم بشكل أعمى قبل أي نموذج للتعلم الآلي» دون محاولة معرفة سبب 
استخدامها. HU‏ قبل استخدام أي من نماذج وطرق التعلم الآلي؛ من الأفضل معرفة متى ولماذا 
يجب علينا استخدام التوحيد القياسي للبنات: 


1. قبل PCA‏ في تحليل المكونات الرئيسيةة e (PCA)‏ تكتسب الميزات ذات التباين 
العالي / النطاق الواسع وزتًا أكبر من تلك ذات التباين المنخفض . ونتيجة لذلك » فإنها 
تهيمن بشكل غير معقول على المكونات الرئيسية الأولى. يمكن أن يمنع التوحيد هذا من 
خلال توفير نفس الوزن لجميع الميزات. 

2 قبل التجميع: نماذج التجميعة هي خوارزميات تعتمد على المسافة تستخدم معيار 
المسافة لقياس التشابه بين الملاحظات. لذلك . سيكون للميزات عالية النطاق تأثير 
أكبر على التجميع. ومن ثم » فإن التوحيد مطلوب قبل إنشاء نموذج التجميع. 

3. قبل co SILK KNN‏ الجيران* هي خوارزمية تصنيف تعتمد على المسافة تصنف 
الملاحظات الجديدة ely‏ على أوجه التشابه (على سبيل JEI‏ معايير المسافة) مع 


1 standard score 


2 Principal Component Analysis 
3 Clustering 


^ k-nearest nei ghbors 
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الملاحظات الموسومة من مجموعة التدريب. يسمح التوحيد لجميع المتغيرات 
بالمشاركة بالتساوي في قياس التشابه. 

4. قبل SVM‏ تحاول خوارزمية آلة المتجهات الداعمة' تعظيم المسافة بين لوحة الفاصل 
ومتجهات الدعم. إذا كانت الخاصية تحتوي على قيم كبيرة جدا . فإنها تهيمن على 
الخصائص الأخرى عند حساب المسافة. لذلك. يعطي التوحيد جميع الميزات نفس 
التأثير على معيار المسافة. 


التسوية' 


التسوية هو جزء من تقنيات المعالجة المسبقة وتنقية البيانات» وبشكل أكثر عمومية» نوع من 
تحجيم الميزات. الغرض الرئيسي من هذه التقنية هو جعل البيانات متسقة عبر جميع السجلات 
والحقول (دون تغيير نطاق القيم). يساعد هذافي إجراء اتصالات بين بيانات الإدخال» مما يساعد 
Boy gy‏ تنظيف البيانات وتحسين جودتها. يتم استخدام هذا النوع من التحجيم عندما يكون 
للبيانات نطاق متنوع (للخصائص نطاقات مختلفة) ولا تفترض الخوارزميات التي يتم تدريبها 
عليها مسبقًا توزيع البيانات (مثل الشبكات العصبية). 

يعطي التسوية وزناً / أهمية متساوية لكل متغير بحيث لا يشوه متغير واحد أداء النموذج في 
اتجاه واحد ؛ فقط لأنهم أكثر عددا. إن أسلوب التحجيم الأكثر شيوعًا والأكثر استخدامًا هو 
التحجيم مجددا . والمعروف Cad‏ باسم تسوية الحد الاقل-الحد الاكثر» Gilly‏ يتم حسابه 
على النحو التالي: 


x — min(x) 


di max(x) — min(x) 


التوحيد gl‏ التسوية؟ 


تعد التسوية مفيدة عندما تعلم أن توزيع البيانات الخاص بك لا يتبع التوزيع الغاوسي (منحنى 
الجرس). يمكن أن يكون هذا cas‏ الخوارزميات التي لا تفترض أي توزيع للبيانات» مثل 
KNN‏ أو الشبكات العصبية. من ناحية أخرى» يمكن أن يكون التوحيد مفيداني الحالات التي 
تتبع فيها البيانات توزيعًا غاوسيًا (يفترض التوحيد أن بياناتك لها توزيع غاوسي). ومع US‏ 
هذا ليس صحيحًا Bra pall‏ ولكن إذا كان توزيع الميزات الخاص بك هو غاوسي» OD‏ هذه 
التقنية تكون أكثر Cal AILS‏ على عكس التوحيد. ليس للتسوية حدود. لذلك حتى إذا كان 


l Support Vector Machine 
2 normalization 


3 Rescaling 
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لديك الكثير من البيانات المتطرفةفي بياناتك» فلن تتأثر بالتسوية. ومع ذلك يعتمد اختيار 
استخدام التوحيد أو التسوية على مشكلتك وخوارزمية التعلم الآلي الخاصة بك. لا توجد قاعدة 
صارمة وسريعة لإخبارك بموعد توحيد بياناتك. يمكنك Gila‏ ملاءمة! نموذجك مع البيانات 
الخام والموحدة والمسواة ومقارنة الأداء للحصول على أفضل النتائج. 


Loin‏ & التوحيد القيم الأساسية ضمن نطاق wyico‏ يضعها gul‏ فى توزيع 
متوسطه صفر وانحرافه المعيارى واحد. 


التمثيل المرنى للبيانات 


التمثيل المرئي للبيانات هو عرض البيانات أو المعلومات في رسم بياني أو مخطط بياني أو أي 
تنسيق مرئي آخر ينقل اتصال البيانات بالصور. يعد التمثيل المرئي للبيانات أحد أهم الخطوات 
في علم البيانات والتعلم JY‏ . حيث يتيح رؤية الاتجاهات والأنماط بسهولة. مع ظهور البيانات 
الضخمة » نحتاج إلى أن نكون قادرين على تفسير مجموعات كبيرة من البيانات. نحتاج إلى 
التمثيل المرئي للبيانات OY c‏ الملخص المرئي للبيانات يجعل من السهل تحديد الأنماط 
clas ly‏ بدلا من ci ical GV Jil‏ فى bly Jude‏ .هذه عي الطريقة Jove gil‏ با 
الدماغ البشري. نظرًا oY‏ الغرض من تحليل البيانات هو الحصول على نظرة ثاقبة » يمكن 
الحصول على مزيد من المعلومات من البيانات عند توضيحها. حتى إذا تمكن محلل البيانات 
من استخلاص رؤى من البيانات دون توضيح . فسيكون من الصعب نقل المفهوم دون تمثيل 


"T 


عندما يكتب عالم البيانات خوارزميات تحليل تنبؤي متقدمة» من المهم تصوير المخرجات 
لمراقبة النتائج وضمان أداء النماذج. هذا OY‏ التمثيل المرئى للخوارزميات المعقدة أسهل بشكا 


1 fitting 


115 
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عام من المخرجات الرقمية. ربما يكون التمثيل المرئي للبيانات في بايثون أحد أكثر الميزات 
المفيدة المستخدمة في علم البيانات مع بايثون اليوم. في استمرار لهذا القسم e‏ بعد تقديم أنواع 
الرسوم البيانية التوضيحية للبيانات وأسباب اختيار كل منها » سنقوم بتنفيذ كل من هذه 
المخططات باستخدام مكتبات بايثون القوية الموجودة في هذا المجال. 


أهمية وفوائد التمثيل المرنى للبيانات 
بغض النظر عن المهنة التى تختارها . يمكن أن يساعد التمثيل المرئى للبيانات فى عرض البيانات 
Gell st‏ فا bib J all feat‏ البيانات الأ رت وها فى ادي ويعرض اليانات 
للوصول إلى نتيجة. يمكن أن يساعد هذا الشركات في تحديد المجالات التي تحتاج إلى eer‏ 
وما هي العوامل التي تؤثر على رضا العملاء وعدم رضاهم c‏ وماذا تفعل بمنتجات معينة (إلى 
أين يجب أن يذهبوا ولمن يجب بيعها). تمنح البيانات المصورة أصحاب المصلحة وأصحاب 
الأعمال وصناع القرار توقعات أفضل للمبيعات والنمو في المستقبل. 

لتمثيل البيانات مرئياً Jb‏ إيجابي على اتخاذ القرارات في المنظمات والشركات من خلال 
العرض المرئي التفاعلي للبيانات. يمكن للشركات الآن التعرف على الأنماط بشكل أسرع LEY‏ 
تستطيع تفسير البيانات بيانياً أو بصرياً. فيما يلي بعض الطرق المحددة التي يمكن أن تفيد 
المؤسسة من خلالها تصور البيانات: 


7 الارتباط في العلاقات: بدون التمثيل المرئي للبيانات » يكون تحديد العلاقة بين علاقة 
المتغيرات المستقلة [pel‏ صعبًا. من خلال فهم المتغيرات المستقلة » يمكن اتخاذ قرارات 
عمل أفضل. 

" الاتجاهات بمرور الوقت: يعد هذا أحد أكثر تطبيقات التمثيل المرتى للبيانات قيمة. من 
المستحيل التنبؤ بدون الحصول على المعلومات اللازمة من الماضي والحاضر. تخبرنا 
الاتجاهات بمرور الوقت أين كنا ومن المحتمل إلى أين يمكننا الذهاب. 

" البحث عن الاسواق: يأخذ التمثيل الصوري للبيانات معلومات من أسواق مختلفة لمنحك 
نظرة ثاقبة على الجمهور الذي يجب أن يكون تركيزك عليه وأي منهم يجب تجنبه. من 
خلال عرض هذه البيانات في رسوم بيانية مختلفة « نحصل على صورة أوضح للفرص 
المتاحة فى السوق. 

" استجابة السوق: القدرة على الحصول على المعلومات بسرعة وسهولة باستخدام البيانات 
والاستجابة للنتائج e‏ والمساعدة في تجنب الأخطاء. 


تشمل الفوائد الأخرى للتمثيل المرئي للبيانات ما يلي: 
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m‏ القدرة على استيعاب المعلومات بسرعة وتحسين الرؤية واتخاذ القرارات بشكل 
c‏ فهم المزيد حول الخطوات التالية التي يجب اتخاذها لتحسين المنظمة. 
" سهولة توزيع المعلومات التي تزيد من فرصة مشاركة الأفكار مع جميع المعنيين. 


ما هو الغرض من التمثيل المرنى للبيانات؟ 

الغرض من التمثيل المرئي للبيانات واضح GLS‏ إعطاء معنى للبيانات واستخدام المعلومات 
لصالح المنظمة. بالإضافة إلى AUS‏ البيانات معقدة وتصبح أكثر قيمة كلما تم توضيحها. بدون 
التمثيل المرئى» من الصعب العثور بسرعة على اتصالات من البيانات وتحديد الأنماط لاكتساب 
البصيرة. isa‏ لعلماء البيانات العثور على أنماط أو أخطاء دون توضيح. ومع ذلك يعد نقل 
النتائج من البيانات وتحديد المعلومات الهامة منها Gel‏ بالغ الأهمية. يعمل التمثيل المرئي 
للبيانات على تحسين تأثير الرسائل على جمهورك ويقدم نتائج تحليل البيانات بالطريقة الأكثر 
إقناعًا. يسمح لك التمثيل المرئي البيانات بفهم كميات كبيرة من البيانات بشكل أفضل في لمحة. 
يساعد هذافي فهم البيانات بشكل أفضل لقياس تأثيرها على الأعمال التجارية ونقل الأفكار بصريًا 
إلى الجمهور المحلي والأجنبي. 


ما نوع الرسم البيانى الذى يجب ان نستخدمه؟ 

قبل أن la‏ النظر إلى أنواع المخططات. عليك أن تسأل نفسك 5 أسئلة مهمة حول البيانات 
التي لديك. ستساعدك هذه الأسئلة على فهم بياناتك بشكل أفضلء وبالتالي اختيار نوع الرسم 
1. ماهو الموضوع (التقرير) الذي تحاول بياناتك تقديمه؟ 

أول شيء يجب أن تعرفه عن بياناتك هو ما الموضوع أو التقرير الذي تحاول تقديمه؟ لماذا تم 
جمع هذه البيانات وكيف؟ هل تم جمع بياناتك للعثور على الاتجاهات؟ لمقارنة الخيارات 
المختلفة؟ هل تُظهر التوزيع؟ أم أنها تستخدم لمراقبة العلاقة بين مجموعات القيم المختلفة؟ إن 
فهم مصدر بياناتك ومعرفة ما تحاول تقديمه سيسهل عليك اختيار نوع الرسم البياني. 

2. لمن ستقدم نتائجك؟ 

بمجرد فهم المشكلة الكامنة وراء بياناتك.في الخطوة التاليةء ستحتاج إلى معرفة من تقدم نتائجك 
إليه. إذاكنت تقوم بتحليل اتجاهات سوق الأسهم وتقديم نتائجك إلى بعض المتداولين؛ فيمكنك 
استخدام نوع مخطط مختلف عما كان عليه عندما استخدمت نتائجك للأشخاص الذين بدأوا 
للتو في سوق الأسهم. الهدف العام من استخدام التمثيل المرئي للبيانات هو جعل اتصال البيانات 
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أكثر كفاءة. لهذا السبب» تحتاج إلى معرفة جمهورك حتى تتمكن من اختيار أفضل مخطط 
لبياناتك. 


3. ماهو حجم البيانات الخاصة بك؟ 

يؤثر حجم البيانات بشكل كبير على نوع الرسم البياني الذي تستخدمه. يجب عدم استخدام بعض 
الرسوم البيانية لمجموعات البيانات الكبيرة» بينما البعض الآخر مناسب لمجموعات البيانات 
الكبيرة. على سبيل المثال» تعمل المخططات الدائرية بشكل أفضل مع مجموعات البيانات 
الصغيرة. ومع US‏ إذا كنت تستخدم مجموعة بيانات كبيرة» فمن المنطقي أكثر أن تستخدم 
مخطط التشتت. تحتاج إلى اختيار نوع الرسم البياني الذي يناسب حجم بياناتك ويظهرها 
بوضوح دون فوضى. 

4. ماهو نوع البيانات الخاصة بك؟ 

هناك أنواع مختلفة من البيانات» leone drawl‏ مستمرة أو متقطعة. يمكنك استخدام نوع 
البيانات لحذف بعض أنواع المخططات. على سبيل المثالء إذا كانت لديك بيانات مستمرة» فقد 
لا يكون المخطط الشريطي هو الخيار الأفضل. قد تحتاج إلى استخدام مخطط خطي بدلاً من 
ذلك. «footy‏ إذا كانت لديك بيانات متقطعة. فقد يكون من الجيد استخدام المخططات 
الشريطية أو المخططات الدائرية. 

5. كيف ترتبط العناصر المختلفة لبياناتك ببعضها البعض ؟ 

duel‏ عليك أن تسأل نفسك كيف ترتبط العناصر المختلفة لبياناتك ببعضها البعض. هل يعتمد 
ترتيب بياناتك على بعض العوامل مثل الوقت والحجم والنوع؟ أو الارتباط بين المتغيرات 
المختلفة؟ هل بياناتك عبارة عن سلسلة زمنية؟ أم المزيد من التوزيع؟ تساعدك العلاقة بين القيم 
في مجموعة البيانات الخاصة بك على تحديد أفضل مخطط. 


أنواع الرسوم البيانية للتمثيل المرنى للبيانات 

الآن بعد أن عرفنا ما هو التمثيل المرئي للبيانات وكيف يعمل» دعونا نلقي نظرة على الأنواع 
المختلفة من الرسوم البيانية التي تقوم بالتمثيل المرئي للبيانات. 

الرسم البيانى الخطى 

يتم استخدام المخطط البياني الخطي لإظهار تغيير البيانات خلال فترة زمنية متصلة أو خلال فترة 
زمنية. بمعنى آخرء يتم استخدام الرسوم البيانية الخطية بشكل فعال عندما نريد فهم الاتجاهات 


بمرور الوقت. 
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متى نستخدم الرسم البياني الخطي € 
e‏ إذاكان لديك مجموعة بيانات مستمرة تتغير بمرور الوقت. 
e‏ إذا كانت مجموعة البيانات الخاصة بك كبيرة جد بالنسبة إلى المخطط الشريطي. 
o‏ عندما تريد إظهار الاتجاهات لفئات مختلفة خلال نفس الفترة الزمنية وبالتالي إظهار 
المقارنات. 
e‏ رسم الاتجاهات Vy‏ من القيم الدقيقة. 


متى لا نستخدم الرسم البياني الخطي؟ 


e‏ يعمل الرسم البياني الخطي بشكل أفضل مع مجموعة بيانات GST‏ لذلك إذاكان لديك 
مجموعة بيانات صغيرة » فاستخدم مخطط شريطي بدلاً من ذلك. 


الرسم البياني الخطي باستخدام Matplotlib‏ 


# Importing packages 

import matplotlib.pyplot as plt 

# Define x and y values 

x = [7, 14, 21, 28, 35, 42, 49] 

y = [8, 13, 21, 30, 31, 44, 50] 

# Plot a simple line chart without any feature 
plt.plot(x, y) 


plt.show() 
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# Importing packages 


import numpy as np 

# Define x value 

x = np.random.randint(low=1, high=10, size=25) 
plt.plot(x, linewidth-3) 

plt.show() 
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# Define x and y values 

x= [7, 14, 21, 28, 35, 42, 49] 

y = [8, 13, 21, 30, 31, 44, 50] 
# Plot points on the line chart 
plt.plot(x, y, 'o--', linewidth-2) 
plt.show() 


# Define x and y values 
x = np.array([7, 11, 24, 28, 35, 34, 41]) 
y = np.array([8, 20, 13, 30, 31, 48, 50]) 


# Drawn a simple scatter plot for the data given 
plt.scatter(x, y, marker-'*', color='k') 


# Generating the parameters of the best fit line 

m, c = np.polyfit(x, y, 1) 

# Plotting the straight line by using the generated parameters 
plt.plot(x, m*x+c) 

plt.show() 
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import pandas as pd 
# Let's create a Dataframe using lists 
Name = ['Sara', 'Mahsa', 'Zahra', Maryam', 'Ayda'] 
Score = ['19.02', '19.74', '18.34', '17.26', '19.87'] 
# Now, create a pandas dataframe using above lists 
df_ = pd.DataFrame( 

{'Name': Name, 'Score' : Score}) 
# Plotting the data from the dataframe created using matplotlib 
plt.figure(figsize=(9, 5)) 
plt.plot(df_['Name'], df ['Score'], '-b', linewidth-2) 
plt.xticks(rotation=60) 
plt.xlabel('Name") 
plt.ylabel('Score") 
plt.show() 
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#importing the required libraries 

import matplotlib.pyplot as plt 

import seaborn as sns 

ZCreating the dataset 

df — sns.load, dataset("iris") 
df=df.groupby(‘sepal_length')['sepal_width'].sum().to_frame().reset_index() 
#Creating the line chart 
plt.plot(df['sepal_length'], df['sepal width']) 
Z Adding the aesthetics 

plt.title(Chart title") 

plt.xlabel('X axis title") 

plt.ylabel('Y axis title") 

#Show the plot 

plt.show() 


Chart title 


Y axis title 
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import numpy as np 
from mpl_toolkits import mplot3d 


# Setting 3 axes for the graph 
plt.axes(projection-'3d") 


# Define the z, y, x data 
z — np.linspace(0, 1, 100) 


2* 4.5 دع 
y=0.8*x+2‏ 
Plotting the line‏ # 


plt.plot(x, y, z, 'r', hnewidth=2) 
plt.title(Plot a line in 3D") 
plt.show() 


© 
N 
لم‎ 


الرسم البياني الخطي باستخدام Seaborn‏ 
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T T T 
day 1 day2 day 3 


الرسم البيانى الشريطى 
المخططات الشريطية هي طريقة لعرض قيم البيانات المعروضة كأشرطة أفقية وتستخدم لإظهار 
اتجاه البيانات ومقارنة البيانات فى مجموعات فرعية مختلفة معًا. 


متى نستخدم الرسم البياني شريطي € 
o‏ عندما تحتاج إلى مقارنة عدة فئات مختلفة. 
o‏ عندما تحتاج إلى إظهار كيف تتغير البيانات الضخمة بمرور الوقت. 
٠‏ إذاكنت تريد إظهار القيم الموجبة والسالبة في مجموعة البيانات. 


متى لا نستخدم الرسم البياني الشربطي؟ 
e‏ إذاكان لديك العديد من الفتات. يجب ألا يتجاوز المخطط الخاص بك 10 أشرطة. 


الرسم البياني الخطي باستخدام Matplotlib‏ 


import numpy as np 

import matplotlib.pyplot as plt 

# Dataset generation 

objects = ('Python', 'C++', 'Julia', 'Go', "Rust', 'c’) 
y_pos = np.arange(len(objects)) 

performance = [10,8,6,4,2, 1] 

# Bar plot 

plt.barh(y_pos, performance, align='center', alpha=0.5) 
plt.yticks(y_pos, objects) 

plt.xlabel('Usage') 

plt.title(Programming language usage") 
plt.show() 
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Programming language usage 


6 
Usage 


الرسم البياني الخطي باستخدام Seaborn‏ 


import matplotlib.pyplot as plt 
import seaborn as sns 

X = ['A', 'B' 'C'] 

y = ]1 5, 3] 


sns.barplot(y, x) 
plt.show() 


المخطط العمودى 

المخطط العمودي هو نوع من الرسومات البيانية الشريطية التي تستخدم أشرطة عمودية لإظهار 
المقارنات بين الفتات. من الأفضل استخدام المخططات الشريطية لعرض الموقف في وقت 
معين le)‏ سبيل المثال » عدد المنتجات المباعة على موقع ويب). الغرض الرئيسي منها هو 
لفت الانتباه إلى الأرقام بدلا من الاتجاهات (الاتجاهات أكثر ملاءمة للرسوم البيانية الخطية). 


12) 
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de‏ نستخدم الرسم البياني العمودي؟ 
° اعرض قيمًا مختلفة عندما تحتاج إلى مقارنات ee‏ إلى جنب. 


e‏ عندما تريد التأكيد على الفرق بين القيم. 
o‏ عندما تريد إبراز جميع الأرقام بدلاً من الاتجاهات. 


متى لا نستخدم الرسم البياني العمودي ؟ 


٠‏ مناسب لمجموعات البيانات الصغيرة والمتوسطة فقط. 
e‏ يجب ألا يكون عدد الأعمدة كبيرًا We‏ 


الرسم البياني العمودي باستخدام Matplotlib‏ 


import numpy as np 

import matplotlib.pyplot as plt 

# Dataset generation 

data, dict = {'CSE':33, 'ECE':28, 'EEE':30} 

courses = list(data_dict.keys()) 

values = list(data dict.values()) 

fig = plt.figure(figsize = (10, 5)) 

# Bar plot 

plt.bar(courses, values, color ='green’, 
width = 0.5) 

plt.xlabel("Courses offered") 

plt.ylabel("No. of students enrolled") 

plt.title("Students enrolled in different courses") 

plt.show() 


Students enrolled in different courses 


No. of students enrolled 


ECE 
Courses offered 
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import pandas as pd 
plotdata = pd.DataFrame({ 


"2018":[57,67, 77,83], 

"2019':[68, 73,80, 79], 

"2020":[73,78,80,85]}, 

index=["Django", "Gafur", "Tommy", "Ronnie"]) 
plotdata.plot(kind="bar",figsize=(15, 8)) 
plt.title("FIFA ratings") 


plt.xlabel("Footballer") 
plt.ylabel("Ratings") 
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Z Creating the dataset 

df = sns.load, dataset('titanic") 

df pivot = pd.pivot_table(df, 
values-"fare"jindex-"who",columns-"class", aggfunc-np.mean) 
Z Creating a grouped bar chart 

ax = df_pivot.plot(kind="bar",alpha=0.5) 
#Adding the aesthetics 

plt.title('Chart title") 

plt.xlabel('X axis title") 

plt.ylabel('Y axis title") 

# Show the plot 

plt.show() 
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Y axis title 


Chart title 


X axis title 
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الرسم البياني العمودي باستخدام Seaborn‏ 


Chart title 


Y axis title 
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X axis title 
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ZReading the dataset 

titanic dataset = sns.load dataset('titanic") 

Z Creating the bar plot grouped across classes 
sns.barplot(x = 'who',y = 'fare',hue = 'class',data = titanic. datase 
t, palette = "Blues") 

#Adding the aesthetics 

plt.title('Chart title") 

plt.xlabel('X axis title") 

plt.ylabel('Y axis title") 

Show the plot 

plt.show() 
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الرسم البيانى الدائرى 
تستخدم المخططات الدائرية على نطاق واسع في مختلف المجالات لإظهار نسب التصنيفات 
المختلفة ولمقارنة التصنيفات المختلفة بالقوس. تعد المخططات الدائرية خيارًا Gh‏ لتمثيل 
النسب CR eal‏ لأنها تمثل كل عنصر كجزء من الكل. 
متى نستخدم الرسم البياني الدائري؟ 

e‏ عندما تقوم بإظهار النسب والنسب المئوية لمجموعة البيانات. 

e‏ من الأفضل استخدامه مع مجموعات البيانات الصغيرة. 

o‏ عند مقارنة تأثير عامل واحد على Ob‏ مختلفة. 

e‏ إذاكان لديك ما يصل إلى 6 فئات. 

0 عندما تكون بياناتك اسمية وليست متسلسلة. 


الفصل الثالث: البيانات 


متى لا نستخدم الرسم البياني الدائري؟ 
e‏ إذا كان لديك مجموعة كبيرة من البيانات. 
e‏ إذاكنت تريد إجراء مقارنة دقيقة أو مطلقة بين القيم. 


الرسم البياني الدائري باستخدام Matplotlib‏ 


#Creating the dataset 

cars = ['‘AUDI', 'BMW', 'NISSAN', 
'TESLA', 'HYUNDAT', HONDA 

data = [20, 15, 15, 14, 16, 20] 

#Creating the pie chart 

plt.pie(data, labels = cars) 

#Adding the aesthetics 


plt.title(Chart title') 
#Show the plot 
plt.show() 
Chart title 
BMW 
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ZCreating the dataset 

cars = ['AUDI', 'BMW', 'NISSAN', 
'TESLA', 'HYUNDAT', 'HONDA'] 

data = [20, 15, 15, 14, 16, 20] 

myexplode = [0.2, 0, 0, 0,0,0.6] 

#Creating the pie chart 

plt.pie(data, labels = cars,explode = myexplode) 

#Adding the aesthetics 

plt.title(Chart title') 

#Show the plot 

plt.show() 
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Chart title 
BMW 


NISSAN 


TESLA 


HYUNDAI 


الرسم البياني الدائري باستخدام Seaborn‏ 


import seaborn as sns 


Zdefine data 
data = [15, 25, 25, 30, 5] 
labels = ['Group 1', 'Group 2', 'Group 3’, 'Group 4', 'Group 5'] 


Zcreate pie chart 
plt.pie(data, labels = labels) 
plt.show() 
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الرسم البيانى النقطى 
المخطط النقطي او مخطط التشتت هو رسم بياني يوضح العلاقة بين متغيرين كنقطة على نظام 
إحداثيات مستطيل. يتم تحديد موضع النقطة بواسطة قيمة المتغير. من خلال مراقبة توزيع نقاط 
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البيانات c‏ يمكن استنتاج العلاقة بين المتغيرات. يتطلب إنشاء مخطط نقطي الكثير من البيانات» 
وإلا ob‏ الارتباط ليس واضحًا. 
متى نستخدم الرسم البياني النقطي ؟ 

e‏ لإظهار الارتباط والتجميع في مجموعات كبيرة من البيانات. 

e‏ إذاكانت مجموعة البيانات الخاصة بك تحتوي على نقاط لها زوج قيم. 

e‏ عندما تحتاج إلى ملاحظة وإظهار العلاقات بين متغيرين عدديين. 
متى لا نستخدم الرسم البياني النقطي ؟ 

e‏ إذاكانت القيم في مجموعة البيانات الخاصة بك غير مرتبطة. 
الرسم البياني النقطي باستخدام Matplotlib‏ 

import matplotlib.pyplot as plt 


import numpy as np 


Zdefine data 
x = np.array([5,7,8,7,2,17,2,9,4,11,12,9,6]) 
y = np.array([99,86,87,88,111,86,103,87,94,78,77,85,86]) 


#Show the plot 
plt.scatter(x, y) 
plt.show() 
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#Creating the dataset 

df = sns.load, dataset("tips") 

Z Creating the scatter plot 
plt.scatter(df['total_bill'],df['tip'],alpha=0.5 ) 
#Adding the aesthetics 

plt.title('Chart title") 

plt.xlabel('X axis title") 

plt.ylabel('Y axis title") 

#Show the plot 

plt.show() 
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الرسم البياني النقطي باستخدام Seaborn‏ 


ZCreating the dataset 

bill. dataframe = sns.load, dataset("tips") 

Z Creating scatter plot 

sns.scatterplot(data-bill dataframe, x-"total bill", y="tip") 
#Adding the aesthetics 

plt.title('Chart title") 

plt.xlabel('X axis title") 

plt.ylabel('Y axis title") 

# Show the plot 

plt.show() 
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Chart title 


Y axis title 


X axis title 
مخطط المساحة'‎ 
تستخدم مخططات المساحة لتعقب التغييرات بمرور الوقت لمجموعة واحدة أو أكثر. عندما‎ 
يُفضل المخططات المساحية‎ i نريد تسجيل التغييرات مع مرور الوقت لأكثر من مجموعة واحدة‎ 
على المخططات الخطية.‎ 
متى نستخدم مخطط المساحة؟‎ 
عندما لا ترغب في اتباع القيم بأكملها فحسب . بل تريد أيضًا معرفة كيفية تقسيمها‎ e 
إلى مجموعات.‎ 
إذا كنت ترغب في التمثيل المرئي لحجم البيانات الخاصة بك وليس فقط بمرور‎ e 
الوقت.‎ 
متى لا نستخدم مخططات المساحة؟‎ 
«لايمكن استخدامه مع البيانات المتقطعة.‎ 
Matplotlib مخطط المساحة باستخدام‎ 
ZReading the dataset 
x=range(1,6) 
y= [1,4,6,8,9], [2,2,7,10,12], [2.8,5,10,6] ] 
ZCreating the area chart 


ax — plt.gca() 
ax.stackplot(x, y, labels=['A','B','C'],alpha=0.5) 


! Area Chart 
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#Adding the aesthetics 
plt.legend(loc-'upper left") 
plt.title('Chart title") 
plt.xlabel('X axis title") 
plt.ylabel('Y axis title") 


#Show the plot 
plt.show() 
Chart title 
10 15 20 25 3.0 35 40 45 5.0 
X axis title 
Seaborn مخطط المساحة باستخدام‎ 
# Data 


years of experience =[1,2,3] 
salary=[ [6,8,10], [4,5,9], [3,5,7] ] 
# Plot 
plt.stackplot(years of experience,salary, labels=['Company A','C 
ompany B','Company C']) 
plt.legend(loc-'upper left") 
ZAdding the aesthetics 
plt.title('Chart title") 
plt.xlabel('X axis title") 
plt.ylabel('Y axis title") 

# Show the plot 

plt.show() 
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المخطط الفقاعى' 
المخطط الفقاعى هو مخطط متعدد المتغيرات ونوع من مخططات التشتت الذي يستخدم 
لتمثيل العلاقات بين ثلاثة متغيرات. يتم عرض قيم المتغيرات لكل نقطة بالموقع الأفقي 
متى نستخدم المخطط الفقاعي؟ 

e‏ إذاكنت تريد مقارنة القيم المستقلة. 

٠‏ إذاكنت تريد إظهار التوزيع أو العلاقة. 

e‏ عندما تريد رسم العلاقات بين المتغيرات الثلاثة وإظهارها. 
متى لا نستخدم المخطط الفقاعي؟ 

e‏ إذاكان لديك مجموعة بيانات صغيرة. 
المخطط الفقاعي باستخدام Matplotlib‏ 


import matplotlib.pyplot as plt 
import numpy as np 


# create data 

x = np.random.rand(40) 

y = np.random.rand(40) 

z = np.random.rand(40) 

colors = np.random.rand(40) 

# use the scatter function 
plt.scatter(x, y, s=z*1000,c=colors) 
plt.show() 


! Bubble Chart 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


المخطط الفقاعي باستخدام Seaborn‏ 


import matplotlib.pyplot as plt 
import numpy as np 

import seaborn as sns 

import pandas as pd 


# data 
x-[' IEEE", "Elsevier", "Others", "IEEE", "Elsevier", "Others"] 
y=[7, 6, 2, 5, 4, 3] 


z=["conference", "journal", "conference", "journal", "conference", 
journal"] 


# create pandas dataframe 
data_list = pd.DataFrame( 
ix axis: x, 
'y. axis": y, 
‘category': z 
» 
# change size of data points 
minsize = min(data_list|'y_axis']) 
maxsize = max(data_list['y_axis']) 
# scatter plot 
sns.catplot(x="x_axis", y="y_axis", kind="swarm", hue="category 
" sizes=(minsize* 100, maxsize*100), data=data_list) 
plt.grid() 


category 
@ conference 
© = journal 


y_axis 


IEEE Elsevier Others 
x axis 


الفصل الثالث: البيانات 135 


antal‏ الفصل الثالث 

" البيانات هي محرك يمكنه توجيه الأعمال في الاتجاه الصحيح. 

We "‏ يمكن اعتبار مجموعة البيانات على أنها مجموعة كائنات بيانات لها نفس 
الخصائص. 

" تتضمن الاسماء الأخرى لكائن البيانات: سجل » أو نقطة » أو متجه o‏ أو نمط . أو حدث 
sli‏ عنصرء أو عينة » أو عرض ء أو OLS‏ 

" تنظيف البيانات عملية إعداد البيانات للتحليل عن طريق إزالة أو تعديل البيانات غير 
الصحيحة أو غير الكاملة أو غير الملائمة أو المكررة أو غير المناسبة. 

" يعتبر تنظيف البيانات عنصرًا رئيسياً في أساسيات علم البيانات. 

" يمكن لخوارزمية بسيطة التغلب على خوارزمية معقدة لمجرد أنها تحصل على بيانات 
كافية وعالية الجودة. 

m‏ جودة البيانات لا تقل أهمية عن جودة النموذج أو التصنيف التنبئي. 

Y ow‏ يمكن اعتبار البيانات المتطرفة ضوضاء أو Va‏ ومع ذلك » يشتبه في أنها لم يتم 
إنتاجها بنفس طريقة إنتاج البيانات (الكائنات) الأخرى. 

x‏ البيانات المتطرفة لها تأثير كبير على نتيجة تحليل البيانات. 

" يمكنك فقط حذف جزء من البيانات (سمة) غير ذي صلة. ريما تكون الميزة التي تبدو 
غير ملائمة بالنسبة لك وثيقة الصلة بمجال مثل منظور إكلينيكي. 

a‏ تيم col‏ عو Mi e‏ ركم Gd‏ ج SUL‏ الأرلية Jo uelis‏ ايل 

" يسمى تغيير البيانات من القيم المستمرة إلى القيم المنفصلة بالتقطيع. 

" يتم تنعيم البيانات باستخدام خوارزميات متخصصة لإزالة الضوضاء من مجموعة 
البيانات. 

t‏ في بعض coL‏ قد يؤدي تنعيم البيانات إلى إزالة نقاط البيانات القابلة للاستخدام. 

m‏ أكثر تقنيات التحجيم شيوعًا هي التوحيد القياسي والتسوية. 

" يتقارب الانحدار الاشتقاقي للشبكة العصبية مع ميزة التحجيم بشكل أسرع بكثير من 
بدونها. 

" يحدث التوحيد عندما تختلف خصائص مجموعة بيانات الإدخال اختلافا كبيرًا فى 
نطاقها. l‏ 

" تعد التسوية مفيدة عندما تعلم أن توزيع البيانات الخاص بك لا يتبع التوزيع الغاوسي 
(منحنى الجرس). 
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يشمل الفصول التالية: 

الفصل الرابع: 00190 فى تعلم OUD!‏ 
الفصل الخامس: اختيار اللموذج و تقييممه. 
الفصل cw Iw!‏ التعلم COI!‏ للاشراف . 
الفصل اسابع: التعلم العميص. 

الفصل cowl‏ التعلم غير COI!‏ للاشراف . 
الفصل التاسع: موضصوعات مختارة. 


> "m 


Lo‏ هو التعلم الآلى؟ 
" التعرف على أنواع مختلفة من مناهج التعلم. 
" العلاقة بين التعلم الآلى والتخصصات الأخرى. 
" تطبيق التعلم الآلى. 
" التعرف على أدوات التعلم الآلى. 
" التعرف على قابلية التفسير والتوضيح. 
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بعد المطرء أمشي ني شارع مبتل. مع الشعور بالنسيم اللطيف ورؤية توهج غروب الشمس» نراهن 
أن الطقس يجب أن يكون Mee‏ غد. ما زلنا نتوقع الحصول على درجات جيدة هذا الفصل 
الدراسى بعد العمل الجاد والدراسة الجادة. بإلقاء نظرة فاحصة على هذه ALA‏ نجد أن العديد 
من توقعاتنا تستند إلى الخبرة. على سبيل JESI‏ لماذا نتوقع طقسا جيدا Kae‏ بعد رؤية نسيم 
لطيف وشرق الشمس؟ نتطلع إلى هذا الطقس الجيد لأننا نتمتع بتجربة أن الطقسسفي اليوم التالي 
WL‏ ما يكون he‏ عندما نشهد مثل هذا المشهد الآن. وبالمثلء تخبرنا تجربة التعلم لدينا أن 
العمل الجاد يؤدي إلى درجات أكاديمية جيدة. نحن واثقونفي توقعاتناء WY‏ تعلمنا من التجربة 
واتخذنا قرارات Fly‏ على التجربة. بينما يتعلم البشر من التجربة» هل يمكن لأجهزة الكمبيوتر أن 
تفعل الشيء نفسه؟ الجواب نعم والتعلم الآلي هو ما يفعله. التعلم SV‏ هو طريقة تعمل على 
تحسين أداء النظام من خلال التعلم التجريبي من خلال الأساليب الحسابية Zhou)‏ 2021). 

صاغ آرثر صموئيل» رائد ألعاب الكمبيوتر والذكاء الاصطناعي» مصطلح "التعلم d" JI‏ عام 
1959 شركة IBM‏ ووصف التعلم SM‏ بأنه 'السياق الذي يمك نأن تتعلم فيه أجهزة الكمبيوتر 
بدون برمجة واضحة ". التعلم SY‏ هو فرع من فروع الذكاء الاصطناعي تم إنشاؤه لإنشاء أجهزة 
كمبيوتر لديها القدرة على التعلم. الفكرة الرئيسية لاختراع التعلم الآلي القائم على العينة هو أن 
عملية التفكيرفي مشكلة معينة ممكنة من خلال الإشارة إلى أمثلة سابقة مماثلة. الأمثلة السابقة 
المستخدمة لبناء القدرات تسمى أمثلة التدريب (البيانات) وعملية القيام بذلك تسمى التعلم. 
ولكن قبل أن نتعمق أكثرفي التعلم SY‏ دعونا نلقي نظرة على ماهية التعلم. يمكن تعريف التعلم 
ol‏ "تحسين الأداءفي مهمة معينة باستخدام الخبرة والممارسة". يحدث السلوك SU‏ للإنسان 
من خلال التعلمفي التجارب. والتعلم هو خالق المرونةفي الحياة الفردية. التعلم البشري هو شيء 
يتجاوز بل وأكثر تقدمًا من خوارزميات التعلم الآلي الأكثر تقدمًا. ومع US‏ كيف يحدث التعلم 
على أجهزة الكمبيوتر؟في أنظمة الكمبيوترء توجد الخبرةفي شكل بيانات» وتتمثل المهمة الرئيسية 
للتعلم الآليني تطوير خوارزميات التعلم التي تقوم بنمذجة البيانات. من خلال تغذية البيانات 
التجريبية إلى خوارزمية التعلم SW‏ نحصل على نموذج يمكنه عمل تنبؤاتفي الملاحظات 
الجديدة. 


"سيكون برنامج الكمبيوترقاد را على التعلم من خلال النظرفى Bays‏ للمهمة T‏ وفقالمعيارالأداء 1 إذا 


تحسن اد ائه بعد تجرية "T áaaall E‏ 
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تيدأ عملية التعلم JY‏ باستخدام البيانات الأولية لاستخراج معلومات مفيدة للمساعدة ذ 

بدا عملي 7 le‏ ية لاستخراج في 
اتخاذ قرارات أفضل. وبالتالي . يمكن تعريف التعلم الآلي على أنه: "يرك زالتعلم IV‏ على تصميم 
النماذج التي تكون فيها خوارزمي ةكمبيوتر تعتمد على بيانات التدريب المعطاة لنموذج التعلم 
lili‏ فى منطقة معينة" تحصل GG‏ من خلال التجربة والاختبار على البيانات ويحس نأداءه 
حتى يتصرف بشكل مشابه للبشر في مواجهة البيانات الجديدة في نفس المجال ". على الرغم 
من Cof‏ قدمنا le Cad‏ للتعلم الآلي » يقدم مؤلفون مختلفون تعريفات مختلفة للتعلم الآلي. 
فيما يلي ثلاثة تعريفات أخرى للتعلم الآلي: 

m‏ التعلم SW‏ هو برمجة أجهزة الكمبيوتر لتحسين مقاييس الأداء باستخدام بيانات 
نموذجية أو تجرية سابقة. لدينا نموذج محدد لبعض المعاملات ٠‏ والتعلم هو Lis‏ 
برنام جح كمبيوتر لتحسين معاملات النموذج باستخدام البيانات التعليمية أو الخبرة 
السابقة. قد يكون هذا النموذج UR‏ لعمل تنبؤات في المستقيل » أ و لاكتساب المعرفة 
من البيانات » أ وكليهما. )2004 (Alpaydin,‏ 

" يهتم مجال البحث المعروف باسم التعلم SW‏ بكيفية إنشاء برامج الكمبيوت ر التي يتم 
تحسينها GEG‏ من خلال التجرية. )1997 (Mitchell,‏ 
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" يعني التعلم oF SY‏ أجهزة الكمبيوتر تعدل أو تكيف إجراءاتها (سواء كانت تنيؤية أو 
تتحكم في روبوت) لجعلها AT‏ دقة » حيث تنعكس الدقة في مقدا رالإجراءات المحددة 
بشكل صحيح . )2015 (Marsland,‏ 
By‏ لهذه التعريفات . يطرح التعلم الآلي سؤالين أساسيين: أولاً .كيف يعرف الكمبيوتر أنه 
يعمل على تحسين أدائه في مهمة معينة؟ OU‏ كيف يفهم البرنامج أنه بحاجة إلى تحسين في 
هذه المهمة؟ توفر الإجابات على هذه الأسئلة as‏ للعديد من الأساليب المختلفة للتعلم الآلي 
والتعلم المعزز. 
Ou‏ ما يتم تقسيم أساليب التعلم الآلى إلى مرحلتين )2012 :(Hertzmann and Fleet,‏ 
1. التعليم: نموذج يحقق التعلم باستخدام مجموعات البيانات التعليمية. 
2. التطبيق: يستخدم النموذج المدرب لاتخاذ القرارات والتنبؤات على بعض البيانات 
التجريبية (البيانات التي لم يلاحظها النموذج في عملية التدريب). 


التعلم الخاضع للاشراف 

في طريقة التعلم الخاضع للاشراف. يتم تغذية مجموعة من عينات التدريب للخوارزمية 
بالإجابات الصحيحة (الأهداف) (لدينا بيانات إدخال أولية ونتائجها) وتحاول الخوارزمية تعلم 
دالة ely‏ على هذه البيانات والإجابات الصحيحة (يتعلم بمرور الوقت ويصبح أكثر دقة بمرور 
الوقت) لتكون قادرة على التنبؤ By‏ بالقيم المستهدفة للعينات الجديدة. بمعنى ST‏ الهدف هو 
تكييف النظام بطريقة تمكن النظام من التنبؤ بالمخرجات الصحيحة للمدخلات الجديدة بناءً 
على ما تعلمه حتى الآن من بيانات التدريب. يسمى هذا النوع من طريقة التعلم Cah‏ التعلم من 
الأمثلة.في التعلم الخاض للاشراف , إذاكانت بيانات مشكلة التعلم منفصلة . يتم تصنيفها e‏ وإذا 
كانت e‏ البيانات مستمرة ‘ فإنها تسمى الانحدار (التوقع). 


التعلم الخافع للأشراف هو المكان الذى يكون لديك فيه متغيرات الإدخال (X)‏ ومتغير الإخراج (Y)‏ 
واستخد ام خوارزميك لتعلم د ال التطبيق من الإدخال إلى الإخراج: 


Y = f(X) 
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الهدف هو تقديرد اله التطبيق en‏ ابحيث عند مايتم توفير بيانات إدخال جديدة (X)‏ للخوارزميةُ يمكنها 


التنبةبعتغيرات الإخراج (Y)‏ لتلك البيانات. 

yi HAs‏ عملية folc)‏ الخوارزمية &coo2 yo‏ البيانات التعليمية يمكن اعتبارها 
معلما يشرف على عملية pole‏ فإنها تسمى التعلم الخاضع للأشراف. نحن نعرف 
الإجابات الصحيحة. تقوم الخوارزمية بشكل متكرر (Loc)‏ تنبؤات حول البيانات 
التعليمية ويتم تصحيحها من قبل المعلم. يتوقف التعلم عندما تصل الخوارزمية إلى 
مستوى مقبول من الأداء. 


فوائد التعلم الخاضع للاشراف 

e‏ التعلم الخاضع للأشراف مفيد لاستخلاص النتائج من الخبرة السابقة أو المعرفة 
السابقة. 

e‏ يمكنه حل أنواع مختلفة من المشاكل الحسابية العملية. 

e‏ النتيجة أدق من طريقة التعلم غير الخاضع للاشراف. 

e‏ قبل تقديم البيانات للتدريب . أنت تعرف بالضبط عدد الفئات الموجودة. 

مساوى التعلم الخاضع للاشراف 

e‏ يستغرق التدريب bay‏ طويلاً فى الحساب. 

0 إذا كانت مجموعة البيانات aia e‏ بيانات التدريب OB ٠‏ 
خوارزمية التعلم الخاضع للاشراف ستواجه مشاكل عند توقع النتائج. 

o‏ يعد وضع علامات على البيانات مضيعة للوقت Sey‏ وفي بعض الأحيان لا يمكن 
جمع مجموعة بيانات مصنفة بشكل كاف. 

e‏ التعلم الخاضع للاشراف محدود للغاية بحيث لا يمكن تنفيذ بعض مهام التعلم الآلي 
المعقدة باستخدامه. 

e‏ لا يمكن أن يوفر التعلم الخاضع للاشراف معلومات غير معروفة من البيانات التعليمية 
مثل التعلم غير خاضع للاشراف. 

© إذاكانت مسألة تصنيف . إذا قدمنا مدخلات ليست جزءًا من أي من الفئات في مجموعة 
بيانات التدريب » فقد يكون ناتج تسمية الفئة غير صحيح. على سبيل المثال « افترض 
أنك قمت بتدريب مصنف الصور باستخدام بيانات القطط والكلاب. ثم إذا أعطيت صورة 
زرافة » فقد يكون الناتج قطة أو OS‏ وهذا غير صحيح. 
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التعلم غير خاضع للاشراف 


في النهج غير خاضع للاشراف . لا يتم تقديم الإجابات الصحيحة للخوارزمية (لم يتم تصنيف 
البيانات) » ولكن بدلاً من ذلك تحاول الخوارزمية تحديد أوجه التشابه بين المدخلات بحيث 
يتم تجميع المدخلات التي لها ميزة مشتركة معًا. بمعنى آخر » لا يحتوي النظام على المخرجات 
المناسبة . لكنه يستكشف البيانات ويمكنه استخلاص استنتاجات من مجموعة البيانات لوصف 
الهياكل المخفية للبيانات غير المسماة. التجميع وقواعد الارتباط وتقليل الأبعاد هي أمثلة على 
التعلم غير الخاضع للإشراف. 


التعلم غيرالخاضح للإشراف هو المكان الذى يكون لديك فيه بيانات ) bad (X‏ ولاتوجد متغيرات إخراج مقابلة. 


الهدف من التعلم غيرالخاضع للإشراف هو معرفة المزيد من البيانات . 
oy Lo liag‏ التعلم غير الإشرافی ai‏ . على عكس التعلم الإشرافی . لا توجد إجابات 
صحيحة ولا يوجد (olco‏ تقع على عاتق الخوارزميات مسؤولية اكتشاف وتقديم بنية 
ó uio‏ للاهتمام فى البيانات. 

مع الخوارزميات غير الخاضعة للاشراف . لا تعرف Lo‏ الذى تريد الخروج aio‏ من 
النموذج. قد تشك فى أنه يحب أن يكون هناك نوع من العلاقة أو الارتباط بين „AU‏ 
yA‏ البيانات معقدة للغاية بحيث لا يمكن تخمينها. AI‏ فى هذه الحالات. تقوم 
بتحويل «ilu‏ إلى بيانات wae‏ لجعلها قابلة للمقارنة ثم ترك النموذج يعمل 
ومحاولة العثور على بعض هذه العلاقات. تتمثل إحدى الميزات الخاصة لهذه النماذج فى 
Loiy ail‏ يمكن للنموذج انالك طرق مختلفة لتجميع gl Gilly‏ طلبهاء فإن poll‏ 
Agyio‏ لك لإجراء المزيد من البحث حول هذه النماذج AU‏ عن شىء مفيد. 


فوائد التعلم غير الخاضع للاشراف 
e‏ يتطلب وضع العلامات على البيانات الكثير من العمل والمال. التعلم غير الخاضع 
للإشراف يحل هذه المشكلة من خلال التعلم من البيانات غير المسماة (غير معلمة). 
e‏ إنه مفيد جد في العثور على أنماط البيانات التي لا يمكن العثور عليها باستخدام الطرق 
التقليدية. 
e‏ يتم تقليل حجم البيانات بسهولة باستخدام هذا النوع من التعلم. 
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مساوى التعلم غير الخاضع للاشراف 
e‏ قد تكون النتيجة أقل دقة من طريقة التعلم الإشرافي. لأننا لا نملك أي تسميات للبيانات 
ويجب أن يتعلم النموذج بالمعرفة المكتسبة من البيانات الأولية. 
e‏ كلما زادت الميزات . زادت تعقيلها. 
e‏ إنها عملية تستغرق وقتا طويلاً. OY‏ مرحلة تعلم الخوارزمية قد تستغرق الكثير من 
الوقت لتحليل وحساب جميع الاحتمالات. 


التعلم المعزز 


في التعلم المعزز» يحاول الوكيل حل مشكلة عن طريق التجربة والخطأ من خلال التفاعل مع 
بيئة طبيعتها غير معروفة للوكيل. يمكن للوكيل تغبير حالة البيئة من خلال أفعاله أثناء تلقي 
تعليقات فورية من البيئة. هدف الوكيل هو حل المشكلة من خلال إيجاد سلسلة الإجراءات 
المثلى. على الرغم من أن التعلم المعزز هو أحد مجالات التعلم SII‏ إلا أنه يختلف Brest‏ 
جوهريًا عن أساليب التعلم الآلي القياسية (الاشرافي وغير الاشرافي) من نواح كثيرة. YI‏ 
يعتمد التعلم المعزز على تعلم البيانات. بدلاً من ذلك.في التعلم المعززء يتعلم الوكيل من خبرته 
المكتسبة أثناء التفاعل مع البيئة ولا يعتمد على المشرف. OU‏ يركز التعلم المعزز على إيجاد 
السياسة المثلى بدلاً من تحليل البيانات. 


الفرق بين التعلم الاشرافى وغير الاشرافى والمعزز 


يحدث التعلم الإشرافي عندما يتم تغذية الخوارزمية بمجموعة من الأمثلة التعليمية بالإجابات 
الصحيحة (الأهداف) وتستخدم الخوارزمية هذه الإجابات كدليل للمساعدة في حل المشكلة. 
في المقابل Yo‏ يتطلب التعلم غير الإشرافي بيانات معنونة » والنموذج نفسه هو الذي يحل 
المشكلة بمفرده » بدون مراقب خارجي . من خلال إيجاد أوجه التشابه بين المدخلات واكتشاف 
الأنماط المخفية. على عكس هذين النهجين c‏ لا يتطلب التعلم المعزز مجموعة بيانات ويتفاعل 
الجهاز أو الوكيل مع بيئته للحصول على أفضل إجراء لحل المشكلة عن طريق التجربة والخطأ 
وتلقي المكافآت من البيئة. التعلم المعزز ليس اشرافياً GG‏ لأنه لا يعتمد CIS‏ على مجموعات 
بيانات التدريب (المسماة). في الواقع » يعتمد التعلم المعزز على القدرة على مراقبة رد الفعل 
على الإجراءات المتخذة وقياسها بالمكافأة. كما أنها ليست غير إشرافية . لأننا نعرف بالفعل متى 
نمثل "المتعلم" e‏ وهي المكافأة المتوقعة. باختصار e‏ في التعلم الخاضع للاشراف . الهدف هو 
إنشاء صيغة تعتمد على قيم المدخلات والمخرجات. في التعلم غير الخاضع للإشراف › تم 
العثور على اتصال بين قيم الإدخال وتجميعها. في التعلم المعزز » يتعلم الوكيل من خلال التفاعل 
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مع البيئة. Fly‏ على ذلك » يمكن رؤية الفرق بين هذه الأساليب الثلاثة للتعلم الآلي في الجدول 
1-4 


جدول 1-4 مقارنة بين التعلم الاشرافي وغير الاشرافي والمعزز 


التعلم الاشرافي التعلم غير الاشرافي 


2 ن خلال مجموعات بدون توجيه . يتم تدريبه من خلال 
يتعلم من Os cule ae‏ توجيه . يتم تدريبه من TT‏ 
البيانات ذات العلامات. البيانات غير المسماة. 
البيانات المصنفة البيانات غير مصنفة لا يوجد تعريف للبيانات 
التصنيف والتوقع قواعد الارتباط والتجميع على أساس المكافآت 
مشرف اضافي بدون مشرف بدون مشرف 
تعيين بيانات الإدخال 
i Kid‏ اكتشاف النمط تعلم سلسلة من الإجراءات 
لمخرجات محددة 


التعلم الانتقالى 
يركز التعلم الانتقالي على استخراج البيانات من مجال مشابه لزيادة القدرة على التعلم أو تقليل 
عدد العينات ذات العلامات المطلوبةفي المجال المستهدف.في التعلم الانتقالي» يستخدم أحد 
النماذج المعرفة المكتسبة من العمل السابق لتحسين التعميم على نموذج آخر. الغرض من التعلم 
الانتقالي هو تحسين عملية تعلم المهام الجديدة باستخدام الخبرة المكتسبة من حل المشكلات 
السابقة المتشابهة إلى حد ما. 


التعلم الانتقالى 


استخد ام نموذج مدرب مسبقا call Jail‏ من هذا النموذج إلى Alas tano‏ من أجل تحسين أداء هذه 


المهمة الجديدة. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


التعلم متعدد المهام 

من أجل زيادة كفاءة النموذج إلى الحد الأقصى. كما يتم تحسين العديد من دوال الخطأفي وقت 
واحد. في هذه العملية يستخدم النموذج جميع البياناتفي مهام مختلفة لمعرفة التمثيل العام 
للبيانات المفيدةفي سياقات مختلفة ومشاركتها بين المهام المختلفة. تزيد هذه المشاركات من 
كفاءة النموذج (يمكن أن تستفيد كل مهمة من مهمة أخرى) ويمكن أن تؤدي إلى سرعات تعلم 
أسرع. الدافع الرئيسي للتعلم متعدد المهام هو إنشاء نموذج "عام" يمكنه حل مهام متعددةفي وقت 
واحدفي نموذج واحد بدلا من إنشاء عدة نماذج "متخصصة" يتم تدريبها فقط لمهمة محددة. من 
وجهة نظر بيولوجيةء فإن تعدد المهام مستوحى من الطريقة التي نتعلم بها نحن البشر. لتعلم مهام 
جديدة» عادة ما نطبق المعرفة التي اكتسبناها من تعلم المهام ذات الصلة. 


الفرق بين التعلم الانتقالى وتعلم تعدد المهام 


يختلف التعلم متعدد المهام من التعلم الانتقالي » ويختلف في LAS‏ نقل المعرفة. يتم تعلم 
المهام بالتسلسل في التعلم الانتقالي ونقلها من واحد إلى آخر. في حين أن التعلم متعدد المهام 
من خلال مشاركة المعلومات بين جميع المهام يؤدي إلى أداء جيد في جميع المهام التي ينظر 
فيها نموذج واحد في وقت واحد. 


التعلم مع عينة واحدة' 


عادة ما يتضمن تصنيف العملية تغذية عدد كبير من العينات من كل فئة إلى النموذج. التعلم بأحد 
العينات على عكس نماذج التعلم الآلي التقليدية » التي تستخدم GY‏ العينات التدريبية للتعلم € 
فهو نوع من التعلم يستخدم واحدًا فقط أو Bue‏ قليلاً من العينات التعليمية للتعلم. مثال على 
تطبيق لهذا النوع من التعلم هو التعرف على الوجوه. حيث يجب تصنيف الأشخاص بشكل 
صحيح وفقًا لتعبيرات الوجه المختلفة وظروف الإضاءة والإكسسوارات وتسريحات الشعر Gb y‏ 
لصورة نمطية واحدة أو أكثر. 


التعلم بدون عينات ' 


تركز العديد من أساليب التعلم الآلي اليوم على تصنيف العناصر التي تم تدريب فتاتها بالفعل. 
ومع ذلك » من الضروري في كثير من الحالات تصنيف العناصر التي لم يتم رؤية فتاتها من قبل. 


1 One-shot Learning 


? Zero-shot learning 
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تعلم بدون عينات هو طريقة تعلم إشرافية ولكن بدون بيانات تعليمية من هذه الفئة. التعلم بدون 
عينات قادر على حل مشكلة ما دون تلقي أي تعليمات إرشادية من تلك المشكلة. على سبيل 
المثال « تخيل أنك تعرفت على مجموعة من الكائنات في صورة ما دون أن تكون قد رأيت Gs‏ 
صورة لهذا النوع من الأشياء. 


التعلم الاستقرائى ' (التعلم المفهومى ') 


يتضمن التعلم الاستقرائي . المعروف Cael‏ باسم التعلم المفهومي. إنشاء قاعدة عامة لجميع 
البيانات التي يتم تغذيتها في الخوارزمية. في هذا النهج c‏ لدينا البيانات كمدخلات والنتائج 
كمخرجات e‏ ونحتاج إلى إيجاد العلاقة بين المدخلات والمخرجات. يمكن أن يكون هذا ins‏ 
LLU‏ اعتمادًا على البيانات. ومع ذلك e‏ فهي طريقة فعالة تستخدم في التعلم الآلي في مختلف 
المجالات مثل تقنية التعرف على الوجوه وتشخيص الأمراض والعلاج وما إلى ذلك. هذا النوع 
من التعلم هو نهج من أسفل إلى أعلى. 

في هذا النوع من التعلم e‏ يتم إنشاء النموذج بطريقة أنه إذا كان بإمكانه تمديد تقريب جيد 
للدالة الموضوعية لمجموعة كبيرة من المجموعات التعليمية e‏ فيمكنه تقدير هذه الدالة 
الموضوعية في حالة الأمثلة غير المرئية. في هذا «ple‏ المعلومات الوحيدة المتاحة هي مجموعة 
بيانات التدريب . لذلك في أحسن الأحوال يمكن لخوارزمية التعلم أن تقدم فرضية تقدر الدالة 
الموضوعية في عينات التدريب. 

هذا التعلم مهم جد لأنه يعطينا علاقة بالبيانات التي يمكن استخدامها للرجوع إليها في 
المستقبل. يتم استخدام هذا ce‏ عندما لا تكون الخبرة البشرية قابلة للتطبيق عندما تتغير 
المخرجات. باختصار » في التعلم الاستقرائي e‏ نقوم بتعميم نتائج الحقائق. علي سبيل المثال: 

T‏ التفاح فاكهة. 

النتيجة: جميع الفواكه لها طعم حلو. 

لا يزال هذا المجال من التعلم الآلي قيد الدراسة والبحث. لأن هناك العديد من الاقتراحات 
لتحسي eol‏ وسرعة الخوارزمية. 


التعلم الاستقرائى هو Lo‏ نشير إليه dale‏ بالتعلم التقليدى. نحن نبنى ونعلم نموذحًا 


للتعلم الآلى ti‏ على مجموعات بيانات التدريب المسماة التى Wu‏ بالفعل. ثم 


! Inductive Learning 


2 Concept Learning 
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نستخدم هذا النموذج المدرب للتنبؤ بتسميات مجموعة البيانات التجريبية QUI‏ لم 


نواجهها من قبل. 
التعلم الا تنتاجى ١‏ 


تمامًا مثل التفكير الاستقرائي » يعد التعلم الاستنتاجي أو التفكير الاستنتاجي شكلاً آخر من 
أشكال التفكير. في الواقع » التفكير هو مفهوم للذكاء الاصطناعي . وكل من التعلم الاستقرائي 
والاستنتاجي جزء منه. الاستدلال الاستنتاجي هو عملية استنتاج معرفة جديدة من المعلومات 
الموجودة الموجودة ذات الصلة منطقيًا وشكل صحيح من المنطق c‏ مما يعني أن الاستنتا- يجب 
أن يكون صحيحًا إذاكانت الادعاءات صحيحة. 
على عكس التعلم الاستقرائي . الذي يعتمد على تعميم حقائق محددة » يستخدم التعلم 
الاستنتاجي الحقائق والمعلومات الموجودة للتوصل إلى استنتاجات صحيحة ويستخدم نهجًا من 
أعلى إلى أسفل (على عكس التعلم الاستقرائي). النقطة المهمة التي يجب ملاحظتها هي أنه في 
التعلم الاستنتاجي » تكون النتائج محددة ؛ هذا هو ء إما نعم أو لا. بينما يعتمد التعلم الاستقرائي 
على الاحتمالات » إلا أنه يمكن أن يختلف من قوي إلى ضعيف. 
صحة” الاستدلال تضمن حقيقة الاستنتاج المنطقي. يبدأ التفكير الاستنتاجي عادة بالمبادئ 
الأساسية ويصل إلى نتيجة محددة. علي سبيل المثال: 
آ. جميع الحيوانات UST‏ اللحوم تأكل اللحوم. 
ب. الاسد هو JST‏ لحوم. 
النتيجة: الاسد يأكل اللحوم. 


تتبع الطريقة الكلاسيكية للتعلم الآلى النموذج العلمى للاستقراء والقياس. فى 


المرحلة الاستقرائية. نتعلم النموذج من البيانات الأولية (المجموعة التعليمية) وفى 
المرحلة القياسية. يتم تطبيق النموذج للتنبؤ بسلوك البيانات الجديدة. 


التعلم المجازى " 


في التعلم المجازي « يتم تحليل البيانات التعليمية والبيانات التجريبية e‏ المعرفة المكتسبة 
من مجموعة البيانات هذه هى المعرفة المفيدة. يحاول هذا النموذج توقع العللامات لمجموعة 


1 Deductive Learning 
? validity 


3 Transductive Learning 
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الفرق بين التعلم الاستقرانى والتعلم العجازى 


التعلم الاستقرائي ليس سوى المبدأ الكامن وراء خوارزميات التعلم الآلي الخاضعة للإشراف 
حيث يحاول النموذج إنشاء علاقة بين متغيرات الميزة والمتغير المستهدف من خلال فحص 
LL‏ المخفية في البيانات التعليمية. على الرغم من تعرض النموذج لمجموعة محدودة من 
البيانات التعليمية Ob e‏ تعلم النموذج سيكون Gece‏ مع الطبيعة العامة للبيانات بحيث يمكنه 
التنبؤ بقيمة كل نقطة بيانات من مجموعة بيانات غير مسماة (مجموعة بيانات تجريبية). يتمثل 
الاختلاف الرئيسي بين التعلم الاستقرائي والتعلم المجازي في أنه أثناء التعلم المجازي . واجهت 
بالفعل مجموعات بيانات تعليمية وتجريبية عند تدريب النموذج. ومع ذلك . يواجه التعلم 
الاستقرائي البيانات التعليمية فقط عند تدريب نموذج ويطبق النموذج الذي تم تعلمه على 
مجموعات البيانات التي لم يسبق لها مثيل من قبل. 

لا يصنع التعلم المجازي نموذجًا تنبؤيًا. إذا تمت إضافة نقطة بيانات جديدة إلى مجموعة 
البيانات التجريبية » فعلينا إعادة تشغيل الخوارزمية من البداية » وتدريب النموذج e‏ ثم استخدامه 
للتنبؤ بالعلامات. من ناحية أخرى . يشكل التعلم الاستقرائي نموذجًا تنبؤيًا. عندما تواجه نقاط 
بيانات جديدة » فلا داعي لإعادة تشغيل الخوارزمية من البداية. بعبارات أبسط » يحاول التعلم 
الاستقرائي إنشاء نموذج عام يتم فيه التنبؤ JS‏ نقطة بيانات جديدة Fly‏ على مجموعة نقاط 
البيانات التعليمية المرصودة. هنا يمكنك توقع أي نقطة في مساحة النقطة » بخلاف النقاط غير 
المسماة. في المقابل » يخلق التعلم المجازي نموذجًا يناسب نقاط البيانات التدريبية والتجريبية 
التي لوحظت بالفعل. Ls‏ هذا النهج بتسميات البيانات غير المسماة باستخدام المعرفة بالنقاط 
المميزة والمعلومات الإضافية. يمكن أن يكون التعلم الرمزي مكلفا عندما يتم تقديم نقاط بيانات 
جديدة بواسطة دفق إدخال'. في كل مرة تصل فيها نقطة بيانات جديدة » عليك dale]‏ تشغيل كل 
شيء. من ناحية GST‏ ينشئ التعلم الاستقرائي نموذجًا e des O55‏ ويمكن تسمية نقاط 
البيانات الجديدة في وقت قصير جد مع عدد أقل من العمليات الحسابية. 

تخيل أن لديك مجموعة بيانات تدريبية » ولكن مجموعة فرعية واحدة فقط منها مسماة. على 
سبيل المثال » تحاول تصنيف ما إذاكانت هناك زهرة في الصورة. لديك 100000 355-2« ولكن 
لديك فقط 1000 صورة تحتوي بالتأكيد على زهرة » و 1000 صورة أخرى تعرف أنها لا تحتوي 
على زهرة c‏ وليس لديك فكرة عن 98000 مثال آخر. بمعنى آخرء قد يكون لديهم أزهار أو لا. 
يعمل التعلم الاستقرائي عن طريق فحص 2000 عينة مميزة وبناء مصنف على 2000 عينة. 
يقول التعلم المجازي "انتظرء قد لا يتم تصنيف ال 98000 الآخرين c‏ لكنهم يخبرونني eh‏ عن 
مساحة المشكلة التي قد أكون قادرة على استخدامها للمساعدة في تحسين دقتي". 


1 input stream 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


باختصار : 

e‏ يعلم التعلم الاستقرائي النموذج بنقاط البيانات المسماة ويحاول التنبؤ بنقاط البيانات 
غير المسماة. في المقابل » في التعلم المجازي باستخدام مجموعات البيانات التدريبية 
والتجريبية » يتم تدريبها ويحاول التنبؤ بتسمية نقاط البيانات غير المسماة. 

٠‏ في التعلم الاستقرائي ‏ إذا تم تقديم نقطة بيانات جديدة غير مسماة » فيمكننا استخدام 
النموذج الذي تم تدريبه مسبقا للتنبق. ومع ذلك . في التعلم المجازي , قد نحتاج إلى 
إعادة تدريب النموذج بأكمله. 

e‏ في التعلم المجازي . يجب أن تكون مجموعة الاختبار متاحة a‏ بحيث تستخدم 
النمذجة المجازية للمشكلة المعلومات المتاحة من بيانات الاختبار غير المصنفة من 
أجل دقة أفضل. 

e‏ يعد التعلم المجازي أكثر تكلفة من الناحية الحسابية من التعلم الاستقرائي. 


التعلم النشطا 
التعلم النشط هو فرع من فروع التعلم SW‏ حيث يمكن لخوارزمية التعلم التواصل مع المستخدم 
لتمييز البيانات بالمخرجات المرغوبة. يبني المتعلم الأمثلة التدريبية الخاصة به thy‏ على بعض 
الاستراتيجيات لتحسين أدائه. في التعلم النشط . تختار الخوارزمية باستمرار (بنشاط) مجموعة 
فرعية من العينات التي سيتم تصنيفها في الخطوة التالية من مجموعة البيانات غير المسماة. 
يتمثل الاعتقاد الرئيسي وراء فكرة خوارزمية التعلم النشط في أنها تسمح لخوارزمية التعلم الآلي 
بتحديد البيانات التي تحتاج إلى التعلم منها من أجل تحقيق درجة أعلى من الدقة نظريًا باستخدام 
عدد محدود من علامات التدريب. نتيجة لذلك e‏ يُسمح للمتعلمين الناجحين بطرح الأسئلة 
بشكل تفاعلي أثناء مرحلة التدريب. عادة ما تكون هذه الاستعلامات في شكل بيانات غير مسماة 
مع طلب للتعليق التوضيحي البشري لوضع العلامات. ونتيجة لذلك e‏ يصبح التعلم النشط جزءًا 
من النموذج البشري في الحلقة » حيث يعد أحد أهم أمثلة الأداء. 

الغرض من التعلم النشط هو زيادة أداء خوارزمية التعلم الآلي مع الحفاظ على عدد العينات 
التدريبية OUS ÉG‏ ما يستخدم هذا النهج عندما يكون إنتاج عينات التدريب مكلف أو يستغرق 
Sub By‏ الاستراتيجيتان الأساسيتان في التعلم النشط هما أخذ عينات غير المؤكدةة وأخذ 
عينات من مساحة العيئةة. 


1 Active learning 
2 uncertainty sampling 


3 version space sampling 
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أخذ عينات غير المؤكدة 


في أخذ العينات غير المؤكدة e‏ يختار المتعلم بشكل متكرر عينات التدريب الخاصة به . بحيث 
تكون العينات المختارة هي العينات التي يكون المتعلم أقل ثقة فيها. عادة ما يكون لدى المتعلم 
نموذج يتم تدريبه على نماذجهم التعليمية الحالية التي تتنباً باحتمالية أن تنتمي العناصر إلى فصل 
معين. ثم يستخدم المتعلم تقنية التصغير للعثور على نمط يقلل من هذا الاحتمال (وبالتالي فإن 
النموذج لديه أقل ثقة في كيفية التصنيف). تم تصنيف هذه النقطة بواسطة طرف ثالث وإضافتها 
إلى البرنامج التعليمي. تتكرر هذه العملية حتى يرضي المتعلم عن أداء المصنف. يعد التنفيذ 
والاستدلال وراء أخذ العينات من عدم اليقين al‏ بسيطًا للغاية . مما جعل هذه الإستراتيجية 
شائعة في التعلم النشط. عيب هذه الاستراتيجية هو أنه عندما يكون المتعلم متأكدا من فئة جزء 
من مساحة الإدخال (بينما قد يصنف هذا الجزء بشكل غير صحيح) c‏ لا يختار المتعلم حالات 
جديدة لهذا الجزء. يمكن أن يتسبب هذا في فشل النموذج النهائي في هذا الجزء من مساحة 
الإدخال. 


أخذ عينات من مساحة العينة 


مساحة العينة للمجموعة التدريبية هي مساحة تتضمن جميع النماذج التي تتطابق مع الأمثلة 
التدريبية بشكل صحيح. بمعنى آخر e‏ مساحة العينة عبارة عن هيكل يساعد في الحفاظ على 
جميع الفرضيات القادرة على تصنيف ملاحظاتنا الحالية بشكل كامل. تكمن الفكرة في زيادة 
سرعة التعلم عن طريق اختيار العينات بطريقة تقلل مساحة العينة بسرعة مع كل علامة. 

من تعريف مساحة العينة » يستنتج أن إضافة عينة تدريب إلى مجموعة التدريب يمكن أن تقلل 
فقط من حجم مساحة العينة. هذا هو أساس أخذ العينات من مساحة العينة. في أخذ العينات من 
مساحة العينة ‏ يتم اختيار العينة التالية بحيث يكون تقليل حجم مساحة العينة إلى أقصى حد. 
يتم ذلك عن طريق اختيار العينات التي تنتمي إليها النماذج الموجودة في مساحة العينة. 


التعلم الاونلاين' 

في أبسط أشكاله . يعد التعلم الاونلاين أسلوبًا للتعلم SI‏ يتعلم أمثلة من البيانات في الوقت 
الفعلي من الملاحظة في وقت واحد. بمعنى آخرء تعمل خوارزميات التعلم الاونلاين مع البيانات 
المتاحة. تتحسن الخوارزميات الاونلاين تدريجيًًا مع وصول كل عينة بيانات جديدة » ثم تجاهل 
تلك البيانات وتوقف عن استخدامها. هذا ليس اجبارياً » ولكن من المرغوب فيه ale‏ أن تنسى 


1 Online learning 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الخوارزمية الاونلاين العينات القديمة بمرور الوقت حتى تتمكن من التكيف مع مجموعات 
العينات غير الثابتة!. 

يمكن تطبيق التعلم الاونلاين على المشكلات التي يتم فيها تقديم العينات بمرور الوقت 
والتنبؤ بالتوزيع الاحتمالي للعينات بمرور الوقت. يعد الانحدار الاشتقاقي للانتشار الخلفي(كما 
هو مستخدم في الشبكات العصبية) مثالا على هذا النوع من التعلم. 


التعلم الاوفلاين 

تعمل خوارزميات التعلم الاوفلاين مع البيانات المجمعة من مجموعة البيانات. بمعنى آخر › 
يجب أن يتعلم من البيانات التي لديه بالفعل. يجب إعادة تشغيل خوارزميات الاوفلاين للتعلم 
من البيانات المعدلة. تعد خوارزميات SVM‏ والغابات العشوائية خوارزميات اوفلاين GLS‏ (على 
الرغم من أن الباحثين قاموا ببناء متغيراتهم اونلاين). 


الفرق بين التعلم الاونلاين والاوفلاين 


يمكن تفسير الفرق بين هذين النوعين من التعلم بمثال بسيط ) «Dulhare et al.‏ 2020). 
افترض أن Uo‏ يريد تعلم الجبر. في النوع الأول من التعلم » يمكن لهذا الطالب قراءة وتعلم 
العديد من كتب الجبر. بعد التعلم من هذه الكتب . لا يتعلم أي شيء جديد ثم يستخدم معرفته 
فقط. هذا نوع من التعلم الاونلاين. في طريقة التعلم هذه » تتوفر جميع البيانات أثناء التدريب 
وبعد مرحلة التدريب . لن يكون لدينا المزيد من التعلم. في المقابل . في التعلم الثاني أو التعلم 
الاوفلاين» يقرأ الطالب كتبه ويقرأها أولاً. يتعلم ثم , أثناء استخدام معرفته » كلما وجد GES‏ 
Dod‏ في مجال الجبر » يقرأه » ومن خلال قراءته يحسن معدل تعلمه. 
لذا فإن التعلم الاونلاين يشبه امتلاك مجموعة من الكتب وعليك أن تتعلمها. كل مصادرك 
هي هذه الكتب ولديك بالفعل كل البيانات » ولكن لنفترض أنه عليك تعلم أشياء جديدة وتضيف 
إلى معرفتك السابقة في سياق التعايش مع المعلومات الجديدة التي تعطى لك كل يوم. هذه هي 
الحالة الثانية للتعلم الاونلاين . عندما لا تكون جميع البيانات متاحة حاليًا. 
التعلم الاونلاين له فائدتان رئيسيتان: 
1. يمكن لهذه الطريقة تدريب كميات كبيرة جد من البيانات. على سبيل المثال « 
البيانات غير الموجودة في الذاكرة بسبب الحجم الكبير. 
2. يتم تغطية التغييرات التي قد تحدث في طبيعة البيانات بهذه الطريقة. لنفترض أن 
Google‏ قد طورت خوارزمية لنظام البريد الإلكتروني الخاص بها والتي تكتشف 
بذكاء رسائل البريد الإلكتروني المزعجة(غير الهامة) باستخدام خوارزميات التعلم 


| non-stationary 
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الآلي. كما قد تتوقع c‏ يتغير محتوى رسائل البريد الإلكتروني المزعجة باستمرار e‏ 
ويعمل الأشخاص الذين يرسلون رسائل البريد الإلكتروني المزعجة على تحسين 
أنفسهم كل يوم ضد خوارزميات oia Google‏ لذلك e‏ يمكن لخوارزمية اكتشاف 
البريد الإلكتروني المزعج من Google‏ إجراء تدريب عبر الإنترنت لاكتشاف رسائل 
البريد الإلكتروني المزعجة التي تغيرت بمرور الوقت. في الواقع » يتم تحديث تعلم 
الخوارزمية وتحسينه عن طريق تعديل محتوى وتنسيق رسائل البريد الإلكتروني 
المزعجة. 

من بين نوعين من الخوارزميات. تعد الخوارزميات الاونلاين هى الأكثر شيوعا. all [JA‏ 

يمكنك بسهولة إنشاء خوارزمية اوفلاين من خوارزمية اونلاين بدقة بالإضافة إلى 

مجموعة بيانات مخزنة. لكن العكس ليس aw‏ بالنسبة لخوارزمية اوفلاين Lolo‏ 


ومع ذلك. فإن هذا لا يجعلها بالضرورة متفوقة WL)‏ ما يتم إجراء تنازلات من حيث 
كفاءة العينة gi‏ تكلفة CPU‏ أو الدقة عند استخدام خوارزمية اونلاين). يمكن اعتبار 
الأساليب Jio‏ الدفعة الصغيرة فى تدريب الشبكة العصبية على أنها محاولة لإيجاد حل 
Awg‏ بين الخوارزميات المتصلة الاونلاين والاوفلاين. 


التعلم الجماعى' 

في خوارزميات التعلم الجماعي » تكون بيانات التدريب متاحة بالكامل من وكيل التعلم من 
البداية > وبعد مرحلة التدريب > لا يمكن إضافة بيانات تدريب جديدة al‏ النظام. )= هذه 
الخوارزميات » إذا كانت بيانات التدريب كبيرة جد » فستكون الدورة التدريبية طويلة وتستغرق 
Gy‏ طويلاً وفى بعض الحالات قد لا تكون هناك مساحة كافية لتخزين بيانات التدريب بالكامل. 


التعلم المتزايد' 

في خوارزميات التعلم المتزايد . قد لا تكون بيانات التدريب معروفة أو مكتملة من البداية أو 
يمكن إضافتها بمرور الوقت. بمعنى آخر » من الممكن لهذه الخوارزميات إدخال بيانات تدريب 
جديدة بعد مرحلة التدريب. الغرض من هذه الخوارزميات هو الحفاظ على نتائج المراحل 
السابقة من التدريب وتحسين أداء عامل التعلم فقط من خلال تعلم أنماط جديدة. في الواقع « 
تتكيف هذه الخوارزميات وتحدّث نفسها بإدخال خوارزميات جديدة دون الحاجة إلى إعادة 
تدريب الخوارزميات القديمة التي ربما لم تعد متوفرة. 


1 Batch Learning 


? Incremental Learning 
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يعد التعلم المتزايد أحد أهم الموضوعات في التعلم الآلي. يمكن العثور على تعريفات 

وتفسيرات مختلفة للتعلم المتزايد في نصوص مثل التعلم الاونلاين ‏ أو إعادة التصنيف غير 
الصحيحة للأمثلة السابقة . أو تطوير بنية المجموعات وتقليمها. الهدف العام لنظام التعلم 
المتزايد هو تحديث الافتراضات والمعلومات السابقة عند تقديم أمثلة جديدة . دون إعادة 
استخدام الأمثلة السابقة. وتجدر الإشارة » مع ذلك e‏ إلى أن مثل هذا النظام » عند تقديم عينات 
جديدة » لا ينسى نتائج التدريب لخطواته السابقة على العينات القديمة » بل يحسن معرفته 
السابقة بالعينات الجديدة. بمعنى آخر Glee‏ على التعلم المتزايد التعلم المتزايد عندما يكون له 
الخصائص التالية ( .Dulhare et al.‏ 2020): 

" القدرة على اكتساب معرفة إضافية عند إدخال بيانات جديدة. 

= القدرة على الاحتفاظ بالمعلومات المستفادة من مراحل التعلم السابقة. 

" القدرة على تعلم فئة جديدة إذا تم توفير عينة جديدة. 


ey‏ على الدراسات التي أجريت على خوارزميات التعلم المتزايدء يمكن تصنيف هذه 
الخوارزميات وفقا لمعايير مختلفة. على سبيل المثال » يمكن تقسيم هذه الخوارزميات إلى ثلاث 
فتات tly‏ على قدرتها على تخزين البيانات التعليمية. 


e‏ البيانات الكاملة: هذه المجموعة من الخوارزميات قادرة على تخزين جميع بيانات 
التدريب دون فقدان البيانات القديمة. تشمل Ulis‏ هذه الخوارزميات ترقيات 
وتحديثات فعالة Boy‏ دقيقة. ومع ذلك » نظرًا لتوفر جميع بيانات التدريب » تتطلب 
هذه الخوارزميات مساحة تخزين كبيرة. 

٠‏ البيانات الجزئية: تحتوي هذه الخوارزميات على بيانات معينة فقط. وبالتالى يصلون 
إلى درجة من التنازل بين الدقة واستخدام الذاكرة. l‏ 

٠‏ بدون بيانات: تخزن هذه الخوارزميات المعلومات الإحصائية المتعلقة بالبيانات 
فقط وتتجاهل جميع البيانات. لذلك e‏ اعتمادًا على نوع البيانات المخزنة » تكون 
دقة هذه الخوارزميات أقل من الفئتين المذكورتين أعلاه. ومع ذلك e‏ فإن استخدام 
الذاكرة لهذه الخوارزميات منخفض أيضًا. 

التعلم الذاتى' 

يمكن تسمية التعلم الذاتي بإصدار أكثر Gau‏ من التعلم غير الخاضع للإشراف الذي يتطلب 
بيانات تنظيمية. في هذه الحالة فقط » لا يقوم البشر بوضع العلامات على البيانات » وانما النموذج 
هو الذي يحصل على العلامات من البيانات. نظرًا لعدم وجود حاجة للتعليقات البشرية حول 


1 Self-Supervised Learning 
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تصنيف البيانات . يمكن اعتبار التعلم الذاتي شكلاً مستقلاً من التعلم الخاضع للإشراف. يقوم 
التعلم الذاتي بوضع العلامات بمساعدة البيانات الوصفية المضمنة كبيانات تنظيمية. 


التعلم المتعدد ‘alin!‏ 

تم اقتراح التعلم متعدد الامثلة كنوع من التعلم الخاضع للإشراف للقضايا المتعلقة بالمعرفة غير 
الكاملة حول علامات العينات. في التعلم الخاضع للإشراف e‏ يتم تعيين تسمية منفصلة أو قيمة 
حقيقية لكل عينة تدريبية. في المقابل » في تعلم OVE‏ متعددة من العلامات » يتم تخصيصها 
لحقائب من العينات (تسمى مجموعة منتظمة من بيانات التدريب حقيبة » ويتم تمييز الحقيبة 
بأكملها). في الوضع الثنائي . إذا كانت عينة واحدة على الأقل في تلك الحقيبة موجبة . فإن 
الحقيبة تحمل ملصق موجب . وإذا كانت جميع العينات الموجودة فيه سلبية » فسيكون للحقيبة 
ملصق سلبي. بمعنى ST‏ إذا تطابقت العينة مع النتيجة . فإن الحقيبة كلها يكون موجبًا « وإذا 
لم يتطابق » فإن الحقيبة بأكملها سلبية. الغرض من العديد من الأمثلة هو تصنيف الحقائب أو 
العينات غير المرئية es‏ على حقائب مصنفة على أنها بيانات تدريبية. 


تعلم كيف تعمل الآلة؟ 


يُعرّف التعلم الآلي بأنه عملية مؤتمتة تستخرج الأنماط من البيانات. نستخدم التعلم الآلي الخاضع 
للإشراف لبناء النماذج المستخدمة في برامج تحليل البيانات التنبؤية. يتعلم نهج التعلم الآلي 
الخاضع للإشراف GG‏ نموذجًا للعلاقة بين مجموعة الخصائص الوصفية والخصائص 
المستهدفة Fly e‏ على مجموعة من الأمثلة أو الأمثلة السابقة. بعد ذلك » يمكننا استخدام هذا 
النموذج للتنبؤ بأمثلة جديدة. هاتان الخطوتان منفصلتان موضحتان في الشكل 1-4. 

يسرد الجدول 2-4 مجموعة من الأمثلة السابقة أو قواعد بيانات قروض الإسكان التي منحها 
البنك فى الماضى. تحتوي مجموعة البيانات هذه على سمات وصفية تصف الرهن العقاري 
والسمة المستهدفة td gl‏ إلى ما إذاكان eta‏ طلب الرهى Gold‏ قد قشل في نهاية المظاف 
في سداد القرض أو قام بسداده بالكامل. تحتوي الخصائص الوصفية على ثلاثة سجلات 
(معلومات) حول الرهن العقاري: المهنة (التي يمكن أن تكون إدارية أو صناعية) » وعمر مقدم 
الطلب والنسبة بين راتب مقدم الطلب والمبلغ المقترض (نسبة القرض إلى الراتب). يتم تعيين 
السمة الهدف (النتيجة) بشكل افتراضي أو استرداد. في مصطلحات التعلم IM‏ يشار إلى كل 
صف في مجموعة البيانات على أنه عينة تدريب ويشار إلى مجموعة البيانات العامة على أنها 
مجموعة بيانات تدريب. 


1 Multiple Instance Learning 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


() تعلم نموذج من مجموعة من الأمثلة السابقة 


= C£) mm 
استخدام النموذج للتوقع‎ (o2) 
الشكل 1-4 خطوتان في التعلم الآلي الخاضع للإشراف: (أ) التعلم و (ب) التوقع.‎ 


جدول 2-4 قاعدة بيانات تقييم القروض 


"we نسبة القرض إلى‎ y ce 
الراتب‎ 
صناعية 34 2.96 استرداد‎ 1 
دارية 41 4.64 افتراضي‎ 2 
دارية 36 3.22 افتراضي‎ 3 
دارية 41 3.11 افتراضي‎ 4 
صناعية 48 3.80 افتراضي‎ 5 
صناعية 61 2.52 استرداد‎ 6 
دارية 37 1.50 استرداد‎ 7 
دارية 40 1.93 استرداد‎ 8 
صناعية 33 5:25 افتراضي‎ 9 
صناعية 32 4.15 افتراضي‎ 10 


فيما يلي مثال على نموذج تنبؤ بسيط للغاية لمجموعة البيانات هذه: 
then‏ 3 > نسبة القرض إلى الراتب if‏ 
الافتراضي - النتيجة 
else‏ 
ارجاع الأموال(استرداد) = النتيجة 
end if‏ 
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يمكن القول أن هذا النموذج متوافق مع مجموعة البيانات هذه YOY‏ توجد أمثلة في مجموعة 
البيانات لا يتنباً بها النموذج بشكل صحيح. عند تقديم طلبات الرهن العقاري الجديدة e‏ يمكننا 
استخدام هذا النموذج للتنبؤ Ley‏ إذاكان مقدم طلب الرهن العقاري سوف يسددها el‏ لا ء واتخاذ 
قرارات الإقراض tly‏ على تلك التوقعات. 

تعمل خوارزميات التعلم الآلي على أتمتة عملية تعلم النموذج c‏ مما يوضح العلاقة بين 
الخصائص الوصفية وخاصية الهدف في مجموعة البيانات. بالنسبة لمجموعات البيانات البسيطة 
مثل تلك المعروضة في الجدول 2-4 i‏ قد نتمكن من إنشاء نموذج تنبؤ يدويًا » وفي مثال على 
هذا المقياس » لا يعمل التعلم الآلي بالنسبة لنا. لنفترض OYI‏ أن مجموعة البيانات نفسها تحتوي 
على ميزات وصفية أكثر » مثل مبلغ الرهن العقاري الذي يتلقاها الشخص « وراتب المرتهن « 
ونوع العقار الذي يتعلق به الرهن العقاري . وعدد المرات التي اقترض فيها الشخص. «OM‏ لم 
يعد نموذج التنبؤ البسيط e‏ الذي لم يستخدم فقط ميزة قرض يوم الدفع Gölge‏ مع مجموعة 
البيانات هذه. وبالتالي » من الصعب جد العثور على مثل هذه القاعدة في مجموعة البيانات هذه. 
بمعنى آخر c‏ يكاد يكون من المستحيل تعلم هذا النموذج Gad‏ عن طريق فحص البيانات. هذا 
هو المكان الذي يلعب فيه التعلم الآلي, لأنه بسيط للغاية بالنسبة لخوارزمية التعلم الآلي. ومن 
ثم» عندما نريد بناء نماذج تنبؤية من مجموعات بيانات كبيرة ذات خصائص متعددة c‏ فإن 
الطريقة هي استخدام التعلم الآلي. 

تبحث خوارزميات التعلم الآلي عن مجموعة من نماذج التنبؤ المحتملة في محاولة لبناء 
نموذج يوضح بشكل أفضل العلاقة بين الخصائص الوصفية والخصائص الموضوعية في 
مجموعة البيانات. المعيار الواضح لتوجيه هذا البحث هو البحث عن النماذج المتوافقة مع 
البيانات. ومع ذلك » هناك سبيان على الأقل لعدم فائدة البحث البسيط عن النماذج المتوافقة بما 
يكفي لتعلم النماذج التنبؤية. أولاً . عند التعامل مع مجموعات البيانات الكبيرة » من المحتمل 
أن يكون هناك ضوضاء في البيانات e Cas)‏ والنماذج التنبؤية المتوافقة مع البيانات الصاخبة تقدم 
تنبؤات CO ALE‏ في معظم الأوقات في مشروعات التعلم Ve SY‏ تمثل مجموعة التدريب 
سوى عينة صغيرة من مجموعة الأمثلة المحتملة في المجال. نتيجة QU‏ يعد التعلم JY‏ 
مشكلة مطروحة بشكل سيئة" . وهي مشكلة لا يمكن العثور على حل فريد لها باستخدام البيانات 
الموجودة وحدها. يمكننا استخدام مثال لتوضيح كيف أن التعلم الآلي هو مشكلة يريد فيها فريق 
التحليلات في سلسلة سوبر ماركت تصنيف عملائه إلى مجموعات عازبة أو متزوجة أو عائلية 
ely‏ على cile‏ التسوق الخاصة بهم فقط. تحتوي مجموعة البيانات الواردة في الجدول 2-4 
على ميزات وصفية تصف عادات التسوق لخمسة عملاء. توضح الميزات الوصفية في هذا 
الجدول ما إذا كان العميل يشتري أغذية الأطفال أو المشروبات الغازية أو المنتجات النباتية 


| ill-posed problem 
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العضوية أم لا. تحتوي كل سمة على واحدة من قيمتين » نعم أولا . بالإضافة إلى هذه الميزات 
الوصفية e‏ هناك سمة مستهدفة تصف المجموعة الديموغرافية لكل عميل (اعزب أو زوج أو 
عائلة). تسمى مجموعة البيانات الواردة في الجدول 3-4 مجموعة بيانات معنونة لأنها تحتوي 
على قيم للسمة الهدف. 


جدول 3-4 مجموعة بيانات البيع بالتجزئة البسيطة 


الرقم أغذية الأطفال مشروب غازي منتجات نباتية عضوية الهدف 


لا 


eO 


R 
tas 
جك أ‎ | > 


px 
نحاول تعلم نموذج تنبؤي لسيناريو البيع بالتجزئة هذا من خلال البحث عن نموذج‎ Ul تخيل‎ 
يناسب مجموعة البيانات. أول شيء يتعين علينا القيام به هو معرفة عدد النماذج المختلفة‎ 
الممكنة بالفعل لهذا السيناريو. تحدد هذه الخطوة مجموعة نماذج التنبؤ التي تبحث عنها‎ 
خوارزمية تعلم الآلة. من منظور البحث عن نموذج متسق » فإن الميزة الأكثر أهمية لنموذج التنبؤ‎ 
هي أنه يحدد تعيين أي مجموعة محتملة من قيم الخصائص الوصفية في تنبؤ للخاصية‎ 
الموضوعية. بالنسبة لسيناريو البيع بالتجزتة » هناك ثلاث خصائص وصفية ثنائية فقط . لذلك‎ 
هناك 8 = 23 مجموعات محتملة من قيم الخصائص الوصفية. ومع ذلك . لكل من هذه‎ 
المجموعات الثمانية الممكنة من قيم السمات الوصفية » هناك 3 قيم سمات موضوعية محتملة.‎ 
(D لذلك » هذا يعني أن هناك 6566 نموذجًا ممكنًا للتنبؤ يمكن استخدامها. يوضح الجدول‎ 
العلاقة بين مجموعة من قيم السمات الوصفية ونماذج التنبؤ لسيناريو البيع بالتجزتة. يتم‎ 3-4 
سرد مجموعة الميزات الوصفية على الجانب الأيمن من الجدول » ويتم عرض مجموعة النماذج‎ 
إلى 116561 على الجانب الأيسر من الجدول. باستخدام مجموعة‎ Mz المحتملة لهذا المجال من‎ 
التدريب في الجدول 2-4 , تكمل خوارزمية التعلم الآلي مجموعة 6561 من نماذج التخفيض‎ 
—4 المحتملة لهذا السيناريو فقط للنماذج التي تتوافق مع أمثلة التدريب. يوضح الجدول (ب)‎ 
هذا. توضح الأعمدة الفارغة في الجدول النماذج التي لا تتوافق مع بيانات التدريب. يوضح‎ 3 
الجدول (ب) 4-4 أيضًا أن مجموعة بيانات التدريب لا تحتوي على عينة لكل مجموعة ممكنة‎ 
من قيم الخصائص الوصفية. بمعنى آخر » لا يزال هناك عدد كبير من نماذج التنبؤ المحتملة التي‎ 
تظل متوافقة مع مجموعة بيانات التدريب بعد إزالة النماذج غير المتوافقة. أي أن هناك ثلاث‎ 
e مجموعات من قيم السمات الوصفية التي لا تعرف قيمة السمة الموضوعية الدقيقة لها. لذلك‎ 
M, My من هذه الحالات‎ BIE هناك 27 = 33 نموذجًا محتملاً متوافقة مع بيانات التدريب.‎ 
على عينة‎ tly يمكن العثور على نموذج واحد متماسك‎ YOY GE موضحة في الجدول.‎ Ms و‎ 
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مجموعة بيانات التدريب WE e‏ نقول إن التعلم الآلي هو في الأساس مشكلة مطروحة بشكل 


aw 


جدول 4-4 نماذج التنبؤ المحتملة Ó‏ قبل و (ب) بعد توافر بيانات التدريب 


O‏ قبل توفر بيانات التدريب 


أغذية مشروب F‏ 1 
œ e gay €‏ الهف Mea =~ Ms M, M, M, My‏ 
عضوية 
1 كلا كلا كلا H‏ زوج زوج ۰ SF‏ زوج زوج ذوج 
2 كلا كلا نعم H‏ مجرد ١‏ زوج اعزب زوج زوج اعزب 
3 كلا نعم كلا H‏ عائلي 2 عائلي ‏ اعزب زوج مجرد عائلي 
4 كلا نعم نعم ؟ ol se‏ اعزب زوج مجرد زوج 
5 نعم كلا كلا £ زوج زوج di‏ عائلي ‏ عائلي عائلي 
6 نعم کلا نعم ؟ زوج عائلي c» qe  يلئاع ge‏ 
7 نعم نعم oyl 0 x‏ عائلي ge ge‏ عائلي اعزب 
8 نعم نعم نعم $ اعزب sz‏ عائلي 2 عائلي ‏ زوج عائلي 
(ب) بعد توفر بیانات التدريب 

Ms M, M; md Po e d eo 
كلا كلا كلا زوج زوج زوج زوج‎ 1 
كلا كلا نعم زوج زوج زوج زوج‎ 2 
كلا نعم خير £ عائلي زوج اعزب‎ 3 
كلا نعم نعم اعزب اعزب زوج 2 اعزب‎ 4 
que Ble نعم كلا كلا § زوج‎ 5 
die نعم كلا نعم عائلي عائلي عائلي‎ 6 
QA . . gr انعم عم خير عائلي عائلي‎ 7 
نعم نعم نعم 9 اعزب عائلي زوج‎ 8 


قد نعتقد أن وجود العديد من النماذج المتوافقة مع البيانات أمر جيد. ومع ذلك » تكمن المشكلة 
في أنه على الرغم من أن هذه النماذج تتفق على التنبؤات التي يجب إجراؤها لمجموعات البيانات 
التدريبية c‏ إلا أنها لا تتفق على التنبؤات التي يجب إجراؤها للحالات غير الموجودة في مجموعة 
ill ebb‏ وال يجب een]‏ تحمل بدكل ae‏ على سبيل B] e JEU‏ بدأ dese‏ 
جديد في التسوق في سوبر ماركت واشترى أغذية الأطفال والمشروبات الغازية والمنتجات 
النباتية TER‏ : فإن مجموعة النماذج الثابتة لدينا ستتعارض مع التوقعات التي يجب إعادتها 
إلى هذا العميل. على سبيل المثال » ترجع My‏ الهدف اعزباً . وترجع Ma‏ الهدف عائلي 
المستهدفة » وترجع Mg‏ الهدف زوجيًا. 
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لا توفر معايير التوافق مع البيانات التدريبية أي إرشادات بشأن أي من النماذج المتوافقة يتعامل 
مع الاستعلامات' التي تقع خارج مجموعة البيانات التدريبية. نتيجة لذلك Yo‏ يمكننا استخدام 
مجموعة من النماذج المتوافقة للتنبؤ بهذه الاستعلامات. في الواقع » يعد البحث عن نماذج 
تنبؤية تتطابق مع مجموعة البيانات بمثابة تذكر مجموعة البيانات. Gy‏ لذلك . لا يتم التعلم بهذه 
الطريقة. OY‏ مجموعة من النماذج المتسقة لا تخبرنا Cos‏ عن العلاقة الأساسية بين الخصائص 
الوصفية والغرض بخلاف ما توفره نظرة بسيطة على مجموعة البيانات التدريبية. 

إذا كان النموذج التنبئي مفيدا e‏ فيجب أن يكون Dab‏ على عمل تنبؤات جيدة للاستعلامات 
غير الموجودة في البيانات. يُظهر النموذج التنبئي الذي يقوم بالتنبؤات الصحيحة لهذه الأسئلة 
العلاقة الأساسية بين السمات الوصفية والغرض ويقال إنه معمم2 Me‏ في الممارسة العملية ء 
الهدف من التعلم SY‏ هو العثور على النموذج التنبئي الأكثر عمومية. للعثور على هذا النموذج 
الأفضل . يجب أن تستخدم خوارزمية التعلم الآلي معايير للاختيار من بين النماذج المرشحة التي 
تراها أثناء البحث. بالنظر إلى أن التوافق مع مجموعة البيانات ليس معيارًا Che‏ لاختيار أفضل 
نموذج 5S‏ ما هو المعيار الذي يجب أن نستخدمه؟ هناك العديد من الإجابات المحتملة لهذا 
السؤال وهذا هو سبب وجود خوارزميات مختلفة للتعلم الآلي. تستخدم كل خوارزمية تعلم الآلة 
معايير اختيار نموذج مختلفة لتوجيه You‏ عن أفضل نموذج تنبؤي. لذلك . عندما QUAS‏ 
استخدام خوارزمية تعلم الآلة بدلاً من أخرى , في الممارسة العملية c‏ نختار استخدام معيار اختيار 
نموذج بدلاً من آخر. 

تتضمن جميع معايير اختيار النموذج المختلفة مجموعة من الافتراضات حول خصائص 
النموذج التي نريد أن تستنتجها الخوارزمية. تعرف مجموعة الافتراضات التي تحدد معايير اختيار 
النموذج لخوارزمية التعلم الآلي باسم التحيز الاستقرائي لخوارزمية التعلم الآلي. هناك نوعان من 
التحيز الاستقرائي يمكن لخوارزمية التعلم JV‏ استخدامهما: التحيز المحدود والتحيز المفضل. 


تحديد dalius‏ الفرفيدَ بحيث تكون العنامر agaga‏ فى alu‏ الفرفيهَ محدودةً ويتم تقليل asc‏ 


عمليات البحث دون Stl‏ على البحث. 


jal‏ المحدود هو القوة التمثيلية لخوارزمية أو مجموعة من الفرضيات (UI‏ ستأخذها 
الخوارزمية فى Jue Ul‏ 


l queries 
2 x 
generalize 


? inductive bias 
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التحيز المفضا 


. البحث والبحث غير الكامل لجميع مسافات الفرضيات‎ Club wats 


Juw التفضيلى هو ببساطة ما تفضله خوارزمية التعلم الخاضع للإشراف. على‎ jail 
المثال. قد تفضل خوارزمية شجرة القرار الأشجار الأقصر والأقل تعقيدًا. بعبارة أخرى؛ هذا‎ 
يصنع الفرضية الجيدة.‎ Loy التحيز هو إيمان خوارزميتنا‎ 


يحد التحيز المحدود من مجموعة النماذج التي تراها الخوارزمية أثناء عملية التعلم. يدفع 
التحيز المفضل خوارزمية التعلم إلى تفضيل نماذج معينة على النماذج الأخرى. النقطة المهمة 
هي أن استخدام التحيز الاستقرائي هو شرط أساسي لحدوث التعلم. بدون التحيز الاستقرائي e‏ 
لا يمكن لخوارزمية التعلم الآلي أن تتعلم شيا بخلاف ما تقدمه. باختصار » يعمل التعلم الآلي 
من خلال البحث في مجموعة من النماذج المحتملة للعثور على النموذج التنبئي الذي يمتد بشكل 
أفضل إلى ما وراء مجموعة البيانات. تستخدم خوارزميات التعلم الآلي مصدرين للمعلومات 
لتوجيه هذا البحث . مجموعة بيانات التدريب والتحيز الاستقرائى الذي تفترضه الخوارزمية. 


oul‏ الاستقرانى وضرورته فى التعلم 


جميع طرق التعلم لها تحيز استقرائي. التحيز الاستقرائي هو عملية تعلم المبادئ العامة ely‏ على 
أمثلة محددة. بمعنى آخر e‏ هذا ما تفعله أي خوارزمية للتعلم الآلي ؛ عندما يولد تنبو؟ لكل عينة 
اختبار غير مرئية Fy‏ على عدد محدود من عينات التدريب. في الواقع . يشير التحيز الاستقرائي 
إلى القيود التي تفرضها الافتراضات الموضوعة في طريقة التعلم. يعني التحيز الاستقرائي أن هناك 
حلولًا محتملة لا يمكننا اكتشافها وبالتالى لا توجد فى مساحة العينة التى ندرسها. قد يبدو هذا 
وكأنه قيد سيء للغاية. لكن » في الواقع c‏ التحيز الاستقرائي ضروري للتعلم. للحصول على متعلم 
غير متحيز » يجب أن تتضمن مساحة العينة أي فرضيات محتملة يمكن التعبير عنها. يضع هذا 
قيدًا شديدا: لا يمكن أن يكون الحل الذي ينتجه المتعلم أكثر اكتمالًا من مجموعة كاملة من 
البيانات التدريبية. بمعنى آخر c‏ يمكنه تصنيف البيانات التى شاهدها بالفعل «SJ c‏ لن يكون قادرًا 
على التعميم من أجل تصنيف البيانات الجديدة والتي تم التغاضي عنها. 


بدون التحيز الاستقرائى, لا yo)‏ للمتعلم التعميم من الأمثلة المرصودة إلى أمثلة 


جديدة أفضل من التخمين العشوائى. 


في القرن الرابع عشر » اقترح ويليام إوكام "شفرة أوكام"" e‏ والتي تنص ببساطة على أنه من 
الأفضل اختيار أبسط فرضية لشرح أي ظاهرة. يمكننا اعتبار هذا Eg‏ من التحيز الاستقرائي الذي 


1 Occam's Razor 
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ينص على أن أفضل فرضية لتناسب مجموعة من البيانات التدريبة هي أبسط فرضية. هذا يعني 
أنه إذا كان للخوارزميتين نفس الأداء تقريبًا لمعايير التقييم في مشروع معين » فيجب أن نفضل 
الخيار "الأبسط". 

ولكن ماذا تعني كلمة "أبسط" في هذا السياق؟ بشكل ple‏ من الأسهل تفسير خوارزمية لديها 
أقل تعقيد للاستدلال (لأنها تستخدم متغيرات أقل » على سبيل المثال » وتتطلب هندسة ميزات 
أقل) ويسهل تفسيرها. ومع ذلك . تجدر الإشارة إلى أن هذه الأنواع من التبادلات عادة ما تكون 
منطقية فقط عندما تكون دقة النموذج أبسط . على الأقل ضمن نفس النطاق مثل النموذج الأكثر 
تعقيدًا. في سيناريو حيث قد ينتج عن نصف الدقة ملايين الدولارات في الإيرادات الإضافية أو 
التوفير في GNIS‏ يمكنك اختيار نموذج يصعب تفسيره أو يتطلب مزيدا من الوقت لتطويره. 

في أي مشروع للتعلم الآلي » من الأفضل Glo‏ التركيز أولاً على مشكلة العمل التي تنوي 
معالجتها والبدء بصياغة مقاييس النجاح الرئيسية للتحليل. بافتراض أن جميع المقاييس الرئيسية 
الأخرى متساوية (تقريبًا) C‏ استخدم شفرة اوكام وحدد النموذج الأسهل في التفسير والشرح 
والتطوير والصيانة. بعبارة أخرى . تفضل النموذج الأبسط الذي يكون دقيقًا بدرجة كافية » ولكن 
تأكد من أنك تعرف مساحة المشكلة جيدا بما يكفي لتعرف ما تعنيه عبارة "دقيقة بدرجة كافية" 
في الممارسة العملية. GY‏ . كما قال آينشتاين (ربما أعظم تلميذ أوكام) ذات مرة e‏ "يجب أن 
يكون كل شيء بسيطًا قدر الإمكان c‏ ولكن ليس بهذه البساطة.". 


يعد تعلم الآلة كلمة شائعة في تكنولوجيا اليوم وهو يتزايد lay‏ بعد يوم. في الصناعة » مهد | تعلم 
الآلة الطريق للتقدم التكنولوجي والأدوات التي كانت مستحيلة قبل بضع سنوات. بالإضافة إلى 
ذلك . نستخدم تعلم الآلة في حياتنا اليومية دون أن ندرك ذلك. فيما يلي قائمة ببعض أشهر 
تطبيقات تعلم الآلة في العالم الحقيقي. 

التعرف على الصور 

يعد التعرف على الصور أحد أكثر تطبيقات التعلم الآلي G e‏ وأهمية. يتم استخدامه لتحديد 
الأشياء والأشخاص والأماكن وما إلى ذلك. تستخدم هذه التقنية لمزيد من التحليل مثل التعرف 
على الأنماط أو التعرف على الوجوه. 

التعرف على الكلام 

التعرف على الكلام هو عملية تحويل التعليمات الصوتية إلى نص . يعرف Cal‏ باسم "الكلام إلى 
نص" أو "التعرف على كلام الكمبيوتر". GI‏ » تستخدم خوارزميات التعلم الآلي على نطاق واسع 
في العديد من برامج التعرف على الكلام.. 
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اقتراح المنتجات 

من أشهر تطبيقات التعلم الآلي التوصية بالمنتج. تعتبر توصية المنتج ميزة بارزة في كل موقع 
ويب للتجارة الإلكترونية تقريبًا اليوم e‏ وهو تطبيق متقدم لتقنيات التعلم الآلي. باستخدام التعلم 
الآلي والذكاء الاصطناعي . تتعقب مواقع الويب سلوكك eU‏ على عملية الشراء السابقة ونمط 
البحث وسجل عربة التسوق وتقديم توصيات المنتج. 

يلعب التعلم SY‏ دورًا مهما في ترجمة لغة إلى أخرى. اليوم . إذا قمنا بزيارة مكان جديد ولا 
نعرف اللغة c‏ فهذه ليست مشكلة على الإطلاق لأن التعلم SW‏ يساعدنا من خلال ترجمة النص 
إلى لغات معروفة. يقدم GNMT!‏ من Google‏ هذه الميزة وهي التعلم JM‏ العصبي. 
الخدمات المالية 

تستخدم البنوك والشركات المالية الأخرى تقنية التعلم الآلي لغرضين رئيسيين: تحديد رؤى قيمة 
في البيانات وتقليل المخاطر. يمكن أن تحدد هذه الأفكار فرص الاستثمار أو تساعد المستثمرين 
فى العثور على الوقت المناسب للتداول. بالإضافة إلى ذلك . يمكنه تحديد العملاء المعرضين 
لمخاطر عالية أو استخدام التحليلات الإلكترونية لاكتشاف تنبيهات الاحتيال. 

jilg النفط‎ 

لا يزال البحث عن مصادر جديدة BLAU‏ 6 وتحليل المعادن على الأرض « والتنبؤ بفشل 
مستشعرات التكرير » وتسهيل توزيع النفط لزيادة الإنتاجية والتكلفة c‏ والعديد من التطبيقات 
الأخرى في التعلم الآلي آخذة في التوسع. 

المواصلات 

يلعب تحليل البيانات دورًا مهما فى تحديد الاتجاهات والأنماط فى صناعة النقل ويساعد على 
تبسيط الطرق وتوقع مشكلات الربحية المحتملة. بالنسبة لشركات الشحن والنقل العام 
ومؤسسات النقل الأخرى e‏ يعد تحليل البيانات ونمذجة التعلم الآلي أدوات مهمة. 

الرعاية الصحية 


التنافس اليوم هي استخدام التعلم الآلي للتحليل الطبي. تبحث العديد من الشركات الناشئة 
المختلفة عن فوائد التعلم الآلي للبيانات الضخمة لتوفير الرعاية الطبية الأكثر احتراقًا بهدف 


1 Google Neural Machine Translation 
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مشترك وهو اتخاذ القرارات الأكثر منطقية. اليوم » يمكن لعدد لا يحصى من المستهلكين . حتى 
مع هواتفهم الذكية e‏ قياس مجموعة واسعة من المعلومات الصحية على أساس منتظم. يمكن أن 
توفر أنظمة التعلم الآلي نموذجًا للحالة الصحية للشخص واستخدام التوصيات التي يقوم النظام 
يتحديثها » لتحسين صحة الث لشخص. 


العلاقة بالمجالات الأخرى 


يعد التعلم الآلي مجالًا متعدد التخصصات وفي الواقع هناك ارتباط وثيق بين هذا المجال والعلوم 
الأخرى . على سبيل المثال c‏ تتم مناقشة بعض هذه المجالات المهمة المتعلقة بالتعلم الآلي في 
استمرار هذا القسم. 
الذكاء الاصطناعى 
الذكاء الاصطناعي هو في الأساس نظام يبدو USS‏ ومع ذلك . oB‏ هذا التعريف ليس Gris‏ 
Mey‏ للغاية. لكن ماذا يعنى الذكاء الاصطناعى بالضبط؟ Gay‏ لقاموس كولينز » فإن الذكاء 
الاصطناعي هو "محاكاة ا العقلية بواسطة برنامج كمبيوتر." بعبارات أبسط o‏ نظام 
يمكنه محاكاة السلوك البشري. تشمل هذه السلوكيات حل المشكلات والتعلم والتخطيط » والتي 
يتم تحقيقها » على سبيل المثال » من خلال تحليل البيانات وتحديد الأنماط داخلها من أجل 
تكرار تلك السلوكيات. 

بمعنى آخرء الكود أو التقنية أو الخوارزمية التي يمكن أن تحاكي فئة الفهم المعرفي التي تظهر 
في حد ذاتها أو في إنجازاته هي الذكاء الاصطناعي. ومن ثم e‏ فإن الذكاء الاصطناعي هو لبنة بناء 
التعلم الآلي. في الواقع c‏ يعد التعلم SW‏ مجموعة فرعية رئيسية من الذكاء الاصطناعي ويمكنه 
تمكين الآلات من استخدام الأساليب الإحصائية لجعل تجاربهم أكثر جودة ودقة. يسمح هذا 
لأجهزة الكمبيوتر والآلات بتنفيذ الأوامر Aly‏ على بياناتهم وتعلمهم. تم تصميم هذه البرامج أو 
الخوارزميات لمعرفة المزيد بمرور الوقت والتكيف والتكيف مع البيانات الجديدة. 
التنقيب فى البيانات ' 


يستخدم التعلم الآلي والتنقيب في البيانات نفس تقنيات التداخل. ومع ذلك e‏ بينما يركز التعلم 
الآلي القائم على الميزات على التعلم من البيانات التدريبية » يركز التنقيب في البيانات على العثور 
على ميزات البيانات غير المعروفة (هذه هى خطوة لاستخراج المعرفة فى قاعدة البيانات). 
يستخدم التنقيب في البيانات العديد من أساليب التعلم الآلي ولكن لأغراض مختلفة. من ناحية 


1 data mining 


الفصل الرابع: مقدمة في تعلم الآلة 165 


أخرى » يستخدم التعلم JY‏ أيضًا تقنيات التنقيب عن البيانات كتعلم غير خاضع للإشراف أو 
كخطوة معالجة مسبقة لتحسين دقة المتعلم. 


ما هو الشىء المشترك بين التعلم الآلى والتنقيب فى البيانات؟ 


يتم استخدام كل من التنقيب في البيانات والتعلم SY‏ في علم البيانات » وهو أمر منطقي ON‏ 
كلاهما يستخدم البيانات. إنهما يكملان بعضهما البعض . وكلاهما لديه الكثير من القواسم 
المشتركة » LES‏ يحققان أهدافًا مختلفة. يحظى كل من التنقيب في البيانات والتعلم الآلي 
بشعبية في التسويق » واكتشاف بطاقات الائتمان المزيفة « والتجارة الإإلكترونية e‏ وتجارة التجزئة. 
digas.‏ البيانات ومهندسو البيانات كليهما لمساعدة الشركات. على سبيل المثال .كل من 
التعلم الآلي واستخراج البيانات يجعل إدارة المخزون ومراقبة الجودة والكفاءة التشغيلية ممكنة 
دون تدخل بشري. عندما يتعلق الأمر بالتعلم الآلي واستخراج البيانات , فهناك الكثير من التداخل 
ويستخدمه الناس ye)‏ طريق الخطأ) بدلاً من بعضهم البعض. لكن من المهم فهم الاختلافات 
بينهما » HUY‏ ستستخدم عمليات وبنى مختلفة اعتمادًا على أهدافك ومواردك. عندما تستخدم 
التعلم الآلي واستخراج البيانات بشكل صحيح . فأنت على الطريق الصحيح لتحويل البيانات 
الأولية إلى رؤى قيمة ستؤثر على نتائجك. يمكن أن تكون هذه الرؤى تشغيلية أو استراتيجية أو 
إحصائية. على سبيل المثال » في المستودع » نستخدم التنقيب في البيانات والتعرف على الأنماط 
لحل مشكلات التوجيه المنتقاة'. في هذا السيناريو » يستخدم التنقيب في البيانات تقنيات التعلم 
الآلي لتقدير طول أقصر مسار ممكن بدقة لزيادة الكفاءة. 

التنقيب في البيانات هو قلب الذكاء الاصطناعي والتعلم SY‏ والتعلم العميق والإحصاءات. 
بينما اشتهرت في الثلاثين Gle‏ الماضية c‏ لها تاريخ لأكثر من 200 ple‏ يستخدم علماء البيانات 
تقنيات استخراج البيانات للعثور على أنماط مخفية ولكنها مفيدة في قواعد البيانات الكبيرة التي 
لا يمكننا معالجتها من خلال تقنيات الاستعلام وإعداد التقارير. نظرًا OY‏ البيانات تنمو بشكل 
سريع وأسي . يجب Ule‏ استخدام هذه الأساليب للتحليل والتنبؤ بشكل مفيد. تساعد تقنيات 
التعلم الآلي في معالجة البيانات بسرعة والحصول على نتائج أسرع بشكل تلقائي. تسلط تقنيات 
التنقيب في البيانات الضوء على الأنماط والاتجاهات في مجموعات البيانات السابقة للتنبؤ 
بالنتائج المستقبلية. هذه النتائج في شكل مخططات ا بيانية والمزيد. 


ما هو الفرق بين التعلم الآلى والتنقيب فى البيانات؟ 


يعد التعلم الآلي جزءًا من الذكاء الاصطناعي الذي يمنح الأنظمة القدرة على التعلم والتحسين 
Fy Gub‏ على الخبرة. في هذا السيناريو » يمكننا ely‏ خوارزميات معقدة تعالج مجموعات 


1 picker routing problems 
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البيانات الكبيرة وتستخدمها للتعلم بدون برمجة واضحة. يستخدم التعلم الآلي خوارزميات معقدة 
يتم تعلمها والتنبؤ بها من خلال التجربة. تتحسن هذه الخوارزميات الذكية باستمرار من خلال 
إدخال بيانات تدريبية. الغرض الرئيسي من التنقيب هو فهم البيانات وبناء النماذج التي تتعلم 
العلاقات بين BUS‏ البيانات. فى المقابل » يصف التنقيب فى البيانات » أو عملية اكتشاف 
المعرفةء فعل الاستكشاف CNET‏ البيانات. هذا ee)‏ هو أسلوب شائع لاكتشاف 
الأنماط والاتجاهات غير المعروفة. يتجاوز اكتشاف المعرفة هذا فى قواعد البيانات مجرد تحليل 
بسيط. هذا يعني أن التنقيب في البيانات يستخرج البيانات القابلة للاستخدام من مجموعة أوسع 
من البيانات الخام. 

يتمثل الاختلاف الرئيسي بين التعلم الآلي والتنقيب في البيانات في مستوى التدخل البشري 
المطلوب لإكمال المهمة. التعلم IM‏ القائم على الذكاء الاصطناعي » هو جهاز كمبيوتر يحل 
محل البشر للقيام بشيء ما. في المقابل » يتطلب التنقيب في البيانات تدخلا بشريًا لإكمال 
المهمة. في هذا السيناريو » يستخدم علماء البيانات أدوات لاستخراج واكتشاف الأنماط المفيدة 
في البيانات. في هذه الحالة . هناك مجال كبير للخطأ البشري. بالمقارنة › النتائج التي يتم 
الحصول عليها من خلال التعلم الآلي أكثر دقة من التنقيب في البيانات. يستخدم التعلم الآلي 
النماذج التنبؤية والخوارزميات الإحصائية والشبكات العصبية لتحقيق ذلك. يستخدم التنقيب 
في البيانات مستودعات البيانات وتقنيات تقييم الأنماط للعثور على رؤى قيمة. يمكن العثور 
على الاختلافات الرئيسية بين التعلم SW‏ واستخراج البيانات في التطبيق والمفاهيم والتنفيذ 
وقدرات التعلم: 

" التطبيق: تتطلب خوارزميات التعلم الآلي بيانات في شكل بيانات عادية (قياسية). لتحليل 
البيانات عن طريق التعلم الآلي . تحتاج إلى تحويل مجموعة البيانات من شكلها الأصلي إلى 
تنسيق قياسي. هذا يساعد الخوارزميات الذكية على فهم البيانات بسرعة. يتطلب التعلم الآلي 
Cal‏ كميات هائلة من البيانات لتقديم نتائج دقيقة. يمكن Cal‏ أن ينتج عن التنقيب في 
البيانات نتائج c‏ ولكن بكميات أصغر من البيانات. 
المفاهيم: تعتمد خوارزميات التعلم الآلي على مفهوم أن الآلات تتعلم من البيانات الموجودة. 
يساعد هذا النهج أيضًا على تحسين الذات. يطور التعلم الآلي النماذج to‏ على المنطق 
الكامن وراء البيانات. هذا يساعد على التنبؤ بالنتائج المستقبلية (باستخدام طرق التنقيب 
في البيانات). في المقابل » يركز التنقيب في البيانات على استخراج المعلومات باستخدام 
تقنيات تساعد فى تحديد الأنماط والاتجاهات فى البيانات. 
التنفيذ: يمكننا تنفيذ التعلم الآلي باستخدام الخرارزميات الذكية مثل الانحدار الخطي « 
وشجرة القرار » والشبكات العصبية . إلخ. يستخدم التعلم الآلي أساسًا الخوارزميات الآلية 
والشبكات العصبية للتنبؤ بالنتائج. في المقابل » عندما يتعلق الأمر بالتقيب في البيانات . 
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نحتاج إلى بناء نماذج باستخدام قواعد البيانات ومحركات تنقيب في البيانات! وتقنيات 
تقييم الأنماط. 
" القدرة على التعلم: يستخدم التعلم الآلي تقنيات مماثلة للتنقيب في البيانات » ولكن الطريقة 
الأولى مؤتمتة. هذا يعني أن التعلم الآلي يتعلم GG‏ ويتكيف ويتغير. نتيجة لذلك . يكون 
أكثر دقة من التنقيب في البيانات عند التنبؤ. في المقابل c‏ يتطلب التنقيب في البيانات تحليلا 
بشريًا ويحولها إلى طريقة يدوية. 
" العامل البشري: هناك فرق كبير نسبيًا هنا. يعتمد التنقيب في البيانات على التدخل البشري 
ويتم إنشاؤه في النهاية للاستخدام من قبل الأفراد. ومع ذلك » فإن السبب الرئيسي للتعلم 
الآلى هو أنه يمكنه تدريب نفسه ولا يعتمد على التأثير البشري أو الفعل (التواصل البشري 
pie ee‏ الآلي يقتصر تقريبًا على إعداد الخوارزميات الأساسية). 
الإحضاء 
يرتبط الإحصاء والتعلم الآلي ارتباطًا وثيقا. ومع US‏ فإن الأهداف التي يسعون جاهدين 
لتحقيقها مختلفة GLS‏ الغرض من الإحصاء هو استنتاج عينة من المجتمع. في BUE‏ يتم 
استخدام التعلم الآلي للتنبؤات المتكررة من خلال إيجاد أنماط في البيانات. بالإضافة إلى MS‏ 
يتطلب التعلم V MI‏ كميات كبيرة من البيانات لتكون قادرة على عمل تنبؤات دقيقة. يتم إنشاء 
النماذج باستخدام بيانات التدريب » ويتم ضبطها بدقة” باستخدام مجموعة بيانات التحقق من 
الصحة « وتقييمها باستخدام مجموعة بيانات تجريبية. كل هذه الخطوات تساعد الآلة على 
التعلم. في المقابل Ve‏ تتضمن الإحصائيات مجموعات فرعية متعددة » لأنها لا تحاول التنبؤ. 
الغرض من النمذجة في هذه الحالة هو إظهار العلاقة بين البيانات ومتغير النتيجة. 


أدوات aing‏ العمل" للتعلم الآلى 


بيئة التعلم الآلي هي واجهة أو مكتبة أو أداة تسمح للمطورين والعلماء ببناء ونشر نماذج التعلم 
الآلي بسهولة وسرعة أكبر؛ دون الخوضفي خوارزميات البنية التحتية. إنها توفر طريقة واضحة 
وموجزة لتحديد نماذج التعلم JY‏ باستخدام مجموعة من المكونات الجاهزة والمحسنة. بعض 
الميزات الرئيسية لبيئة تعلم الآلة الجيدة هي: 


1 data mining engines 

محرك التنقيبفي البيانات هو القلب الحقيقي لهندسة استخراج البيانات. يتضمن ذلك الأدوات والبرامج المستخدمة لاكتساب 
البصيرة والمعرفة من البيانات التي تم الحصول عليها من مصادر البيانات والمخزنةفي مستودعات البيانات. 

2 fine tuned 


3 Framework 
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o‏ للأداء الأمثل. 

e‏ إنه صديق للمطورين. 

dew t‏ فهمها وترميزها. 

e‏ توفير التوازي لتوزيع العملية الحسابية. 
بشكل cele‏ تقلل بيئة العمل الفعالة للتعلم الآلي من تعقيد التعلم SW‏ وتجعله أكثر سهولة 
للمطورين. 

على مدى السنوات القليلة الماضيةء شهدنا Glew‏ أدوات التطوير والأنظمة الأساسية 

المتعلقة بالتعلم الآلي والذكاء الاصطناعي. من المكنيات إلى cols‏ العمل والنماذج المدرية 
مسبقا. UU‏ لدى المطورين العديد من الخيارات لإدخال الذكاء الاصطناعيني تطبيقاتهم. 
الغرض من هذا القسم هو تقديم بيئات تعلم الآلة المختلفة للمطورين مع التركيز على ميزاتهم 
الفريدة. 
كيفية اختيار ain‏ العمل المناسبة للتعلم الآلى 


ظهرت العديد من بيئات عمل التعلم الآلي لتبسيط تطوير ونشر تطبيقات التعلم الآلي. ومع ذلك 
يتعين على المطورين اتخاذ خيارات صعبةفي اختيار بيئة العمل المناسبة. لأنه قد يرغب البعض 
في التركيز على سهولة الاستخدام عند تدريس خوارزمية التعلم SY‏ بينما قد يعطي البعض 
الآخر الأولوية لتحسين المعاملات الفائقة ونشر الإنتاج. UY‏ هناك العديد من النقاط الأساسية 
التي يجب مراعاتها عند اختيار بيئة عمل التعلم الآلي لمشروعك: 
" تقييم احتياجاتك. اطرح هذه الأسئلة الثلاثة عند بدء البحث عن أفضل بيئة للتعلم الآلي: 
1. هل مساحة العمل هذه مستخدمة للتعلم العميق أو خوارزميات التعلم الآلي 
التقليدية؟ 
2. ماهي لغة البرمجة المفضلة لتطوير نماذج التعلم الآلي؟ 
3. ما هي الأجهزة والبرامج والخدمات السحابية المستخدمة في القياس؟ 
بايثون و ۸ هي لغات مستخدمة على نطاق واسعفي التعلم I‏ ومع ذلك تتوفر أيضًا لغات 
أخرى مثل Julia‏ و Java s C‏ و Scala‏ تتم كتابة معظم تطبيقات التعلم SY!‏ اليوم بلغة بايثون 
ويتم نقلها من ۸. لأن ۸ مصمم من قبل الإحصائيين والعمل معها غير مريح إلى حد ما. بايثون 
هي لغة برمجة أكثر حداثة وبسيطة وموجزة وأسهلفي الاستخدام. 
" تحسين المعاملات الفائقة. هناك اعتبار رئيسي آخر عند اختيار Hy‏ عمل التعلم الآلي وهو 
تحسين المعلمات الفائقة. كل خوارزمية تعلم الآلة لها نهج مختلف لتحليل البيانات التدريبية 
وتطبيق ما تتعلمه على أمثلة جديدة. تحتوي الخوارزميات على معاملات فائقة يمكنك 
التفكير فيها كلوحة معلومات بها مفاتيح واتصال يتحكم في كيفية عمل الخوارزمية. يقوم 
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بضبط وزن المتغيرات التى يجب أخذها فى الاعتبار « وتحديد مقدار ما يجب مراعاته « 
ee‏ يلات og‏ على الخواروفية. عدر Jan‏ ية cS led‏ من الهم l| Le Bele‏ 
كان هذا الإعداد يجب أن يكون ÉU‏ أم يدويًا. 

" التوسع في التطوير والتدريب. في مرحلة تدريب الخوارزمية هناك قابلية التوسع » وكمية 
البيانات التي يمكن تحليلها . وسرعة التحليل. يمكن تحسين الأداء من خلال الخوارزميات 
الموزعة والمعالجة من خلال استخدام وحدات معالجة الرسوميات. في مرحلة تطوير مشروع 
التعلم الآلي e‏ ترتبط قابلية التوسع بعدد المستخدمين أو التطبيقات التي يمكنها الوصول إلى 
النموذج في وقت واحد في وقت واحد. نظرًا لوجود متطلبات مختلفة في مرحلة التدريب 
والتطوير » تميل المؤسسات إلى تطوير نماذج في نوع واحد من البيئة (على سبيل المثال e‏ 
مساحة عمل التعلم الآلي المستندة إلى بايثون والتي يتم تشغيلها في السحابة). لذلك . عند 
اختيار بيئة العمل » من المهم النظر فيما إذا كانت تدعم كلا النوعين من قابلية التوسع. 


أدوات التعلم الآلى الأكثر شيوعا 


في هذا القسم . نلقي نظرة على بعض أدوات التعلم الآلي الأكثر شيوعًا المستخدمة اليوم. 
SciKit-Learn‏ 

Scikit-learn‏ هي واحدة من أقدم بيئات التعلم AI‏ التي David Cornapo la) sb‏ كمشروع 
Google Code‏ الصيفي في عام 2007. متاح كمكتبة 
Ob‏ وهو يدعم خوارزميات التعلم الخاضعة للإشراف 
وغير الخاضعة للإشراف. Scikit-Learn‏ هي أفضل 

Q لتعلم أساسيات التعلم الآلي.‎ Ob عمل لمطوري‎ By 
تسهل مجموعة الأدوات هذه تنفيذ الخوارزميات الشائعة‎ 
والانحدار اللوجستي » وأقرب جار » وآلة متجه الدعم » والغابة العشوائية:‎ e مثل الانحدار الخطي‎ 
Scikit-Learn وشجرة القرار. بصرف النظر عن التعلم الخاضع للإشراف « يمكن استخدام‎ 
للتعلم غير الخاضع للإشراف ويدعم الخوارزميات مثل التجميع وتحليل المكونات الرئيسية‎ 
يتعامل فقط مع تقنيات التعلم الآلي التقليدية التي لا‎ Scikit-Learn oY والمزيد. نظرًا‎ 
تستخدم التعلم العميق للتدريب » فإنه لا يتطلب وحدة معالجة الرسومات. يمكن لمطوري بايثون‎ 
عن طريق تثبيت الحزمة. حتى المطورين الذين يستخدمون‎ Scikit-Learn البدء بسرعة مع‎ 
للدوال الإضافية‎ Scikit- Learn للتدريب يفضلون‎ Py Torch أو‎ Keras أو‎ TensorFlow 
مثل المعالجة المسبقة للبيانات والتشفير والتحقق المتبادل وتعديل المعاملات الفائقة.‎ 
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المميزات 
© يوفر نماذج وخوارزميات للتصنيف , والانحدار « والتجميع > وتقليل الأبعاد . واختيار 
النموذج € والمعالجة المسبقة. 
« يساعد فى التنقيب فى البيانات وتحليل البيانات. 


PyTorch 


PyTorch‏ هي بيئة تعلم آلي تعتمد على Torch‏ وهي مثالية لتصميم الشبكة العصبية. تم تطوير 
بواسطة مختبر أبحاث الذكاء الاصطناعي في 
Facebook‏ وتم إصداره في يناير 2016 كمكتبة مجانية O PyTo rch‏ 
مفتوحة المصدر . ويستخدم بشكل أساسي في رؤية 
الكمبيوتر والتعلم العميق وتطبيقات معالجة اللغة 
الطبيعية» ويدعم تطوير البرامج المستندة إلى السحابة. يعد تنفيذ شبكة imas‏ في PyTorch‏ 
أبسط وأكثر سهولة من البيئات الآخرى. مع دعم وحدة المعالجة المركزية ووحدة معالجة 
الرسوميات» يمكن تدريب الشبكات العصبية العميقة المعقدة بمجموعات بيانات كبيرة. 
المميزات 

« يوفر مجموعة متنوعة من خوارزميات التحسين لبناء الشبكات العصبية. 

e‏ يمكن استخدام Py Torch‏ على المنصات السحابية. 
TensorFlow‏ 
0110377 هي واحدة من أشهر بيئات التعلم الآلي والتعلم العميق التي يستخدمها 
المطورون والباحثون. تم إطلاق TensorFlow‏ لأول مرة بواسطة فريق Google Brain‏ في 
عام 2007 ويمكن تشغيله على وحدات المعالجة المركزية 
ومسرعات الذكاء الاصطناعي المتخصصة . بما في ذلك 
وحدات معالجة الرسومات (GPU)‏ و (TPU)‏ يتوفر T‏ 
Linux à ,je TensorFlow‏ و macOS‏ و 
Windows‏ 64 بت ومنصات الحوسبة المحمولة » بما في 
ذلك Android‏ و iOS‏ يمكن نشر النماذج المدربة على TensorFlow‏ على أجهزة سطح 
المكتب والمتصفحات وحتى وحدات التحكم الدقيقة. هذا الدعم الشامل يجعل 
501171017 فريدًا وجاهرًا للانطلاق. سواء كنت تعمل على رؤية الكمبيوتر أو معالجة اللغة 
الطبيعية أو نماذج السلاسل الزمنية « TensorFlow ob‏ عبارة عن منصة تعلم آلي قوية وعالية 
lol‏ 


المميزات 


Tensor 
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e‏ النشر على منصات متعددة. يمكن تثبيت TensorFlow‏ على أجهزة سطح المكتب 
والمتصفحات وحتى وحدات التحكم الدقيقة. 
e‏ التدريب الموزع. يوفر Ges TensorFlow‏ قويًا للتدريب الموزع في وحدة المعالجة 
المركزية ووحدة معالجة الرسومات. 
« تدريب شبكة عصبية موازية. يوفر TensorFlow‏ خطوط أنابيب تتيح لك تدريب 
شبكات عصبية متعددة ووحدات معالجة رسومات متعددة بشكل متواز. 
العيوب 
e‏ قد يكون فهم بعض رسائل الخطأ في ALU Éro Hl TensorHow‏ 
Keras‏ 
Keras‏ هي واجهة برمجة تمكن علماء البيانات من الوصول بسهولة إلى منصة التعلم الآلي 
15011107 واستخدامها. إنها واجهة برمجة تطبيقات (APD)‏ ومساحة عمل تعلم عميق 
مفتوحة المصدر مكتوبة بلغة بايثون تعمل على 
TensorFlow‏ وتم دمجها الآن في النظام K Ke ra S‏ 
الأساسي. دعمت Ls Keras‏ العديد من 
backend‏ ولكنها ارتبطت حصريًا ب X» TensorFlow‏ إصدار الإصدار 2.4.0 في يونيو 
0 . تم تصميم Keras‏ « باعتبارها واجهة برمجة تطبيقات عالية المستوى . لإجراء تجارب 
سريعة وسهلة تتطلب برمجة أقل من خيارات التعلم العميق الأخرى. الهدف هو تسريع تنفيذ 
نماذج التعلم IU‏ ولا سيما الشبكات العصبية العميقة » من خلال عملية تطوير "معدل التكرار 
العالي'. يمكن تشغيل طرازات Keras‏ على وحدة المعالجة المركزية أو وحدة معالجة 
الرسوميات ونشرها على منصات متعددة c‏ بما في ذلك متصفحات الويب وأجهزة Android‏ و 
5 المحمولة. تعد Usi Keras‏ من TensorFlow‏ و PyTorch‏ ولكنها تتميز ببنية بسيطة 
وهي أكثر قابلية للقراءة وموجزة وسهلة الاستخدام وقايلة للتطوير. Keras de‏ أكثر ملاءمة 
لمجموعات البيانات الصغيرة ويوصى به للمبتدئين نظرًا لتصميمه البسيط والمفهوم. 


المميزات 
© تركز على تجربة المستخدم. 
« سهولة إنتاج النماذج. 
»دعم الشبكات الالتفافية. 
۵ دعم الشبكات المتكررة. 
° مساحة عمل قائمة على لغة بايثون تسهل التصحيح والاستكشاف. 
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e‏ تم تطويره مع التركيز على القدرة على الاختبار بسرعة. 

e‏ يمكن استخدامه لنماذج أولية سهلة وسريعة. 

« يدعم الجمع d‏ شيكتين + 

e‏ سهل الاستخدام وقابل للتطوير. 
Colab‏ 
Colaboratory‏ « أو Colab‏ « عبارة عن منتج بحثي من Google‏ (خدمة سحابية) يسمح 
للمطورين بكتابة وتنفيذ كود بايثون من خلال متصفحهم. يعد Google Colab‏ أداة رائعة 
لمهام التعلم العميق ويساعد على تطوير النماذج 
باستخدام مكتبات متعددة مثل Keras‏ و 
Pytorch‏ و OpenCv‏ و CO | a h Tensorflow‏ 
والمزيد. Colab‏ عبارة عن دفتر ملاحظات يستند 
إلى Jupyter‏ ولا يحتاج إلى تثبيت ولديه إصدار مجاني رائع يوفر وصولاً Glee‏ إلى موارد 
حوسبة GPU Jie Google‏ و .TPU‏ 
لماذا یجب ان نستخدم fColab‏ 
يعتبر Wee Colab‏ لكل شيء بدءًا من تحسين مهارات برمجة بايثون إلى العمل مع مكتبات 
التعلم العميق . مثل PyTorch‏ و Keras‏ و TensorFlow‏ و .OpenCV‏ يمكنك إنشاء 
وتحميل وحفظ ومشاركة دفاتر الملاحظات في Colab‏ « وتثبيت Google Drive‏ الخاص 
بك واستخدام كل ما تحفظه هناك e‏ وتحميل دفاتر الملاحظات مباشرة من GitHub‏ « وتحميل 
ملفات Kaggle‏ . وتحميل دفاتر الملاحظات الخاصة بك. 
ميزة أخرى رائعة في Google Colab‏ هي ميزة التعاون'. إذا كنت تعمل مع مطورين متعددين 
في مشروع ما « ob‏ استخدام دفاتر Google Colab‏ يعد أمرًا رائعًا. Gls‏ مثل التعاون في 
Google Docs x‏ يمكنك البرمجة مع مبرمجين اخرين باستخدام دفتر ملاحظات 
.Colab‏ بالإضافة إلى ذلك » يمكنك أيضًا مشاركة عملك المكتمل مع مطورين آخرين. 

باختصار » يمكن سرد الأسباب المختلفة لاستخدام Colab‏ على النحو التالي: 

Gras مكتبات مثيتة‎ e 

€ مخزنة في السحابة. 

٠‏ التعاون. 

e‏ استخدام GPU‏ و TPU‏ مجانًا. 


1 collaboration 
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ومع ذلك . هناك سيناريوهان يجب عليك استخدام Jupyter Notebook‏ في جهازك: 
1. تجنب Google Colab‏ إذاكنت تهتم بالخصوصية وترغب في الحفاظ على سرية 
رمزك. 
2. إذاكان لديك جهاز قوي بشكل لا يصدق مع توفر GPU‏ و -TPU‏ 
تشغيل Google Colab‏ 
تعد عملية إعداد Colab‏ سهلة C5‏ ويمكن WLS]‏ بالخطوات التالية على أي نوع من الأجهزة: 
1. قم بزيارة صفحة :Google Colab‏ 
http://colab.research.google.com‏ 
سينقلك تحميل Soll‏ أعلاه إلى ixi‏ الترحيب الخاصة ب Google‏ 
-Colaboratory‏ 
2. انقر فوق الزر تسجيل الدخول (Sign in)‏ في الجزء العلوي الأيمن: 
co Welcome To Colaboratory —— edid Cp‏ 


File Edn View insert Runtime Help 


© Copy t 7 ^ 
| Table of contents x a 
7 
OO What is Colaboratory? 
Colaboratory, or “Colab” for short, allows you to write and execute Python in your browser, with 
* Zero configuration required 
« Free access to GPUs 
B Sect * Easy sharing 


Whether you're a student, a data scientist or an Al researcher, Colab can make your work easier. Watch Introduction to 
Colab to learn more, or just get started below! 


Getting started 


The document you are reading is not a static web page, but an interactive environment called a Colab notebook that lets 
you write and execute code. 
For example, here is a code cell with a short Python script that computes a value, stores it in a variable, and prints the 


result 


3. قم بتسجيل الدخول باستخدام حساب GMail‏ الخاص th‏ إذا لم يكن لديك حساب 
GMail‏ « فقم بإنشاء حساب: 


Google 


Sign in 


Use your Google Account 


Not your computer? Use Guest mode to sign in privately 


Learn more 


English (United States) ~ Help Privacy 
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5. من خلال النقر فوق File» New notebook‏ . يمكنك بسهولة إنشاء دفتر 
ملاحظات جديد من Colab‏ في هذه الصفحة.. 


CO € UntitledO.ipynb 
File Edit View Insert Rur 


El Comment 2$ Share X e 


+ Code + Text Connect > Editing ^ 


<> o 


QI YET YE 


أحدث التعلم JY!‏ تحولًاني العالم كما نعرفه على مدار العقد الماضي. أدى انفجار البيانات إلى 
جمع كميات هائلة من البيانات. خاصة من قبل الشركات الكبيرة مثل Facebook‏ و -Google‏ 
هذا الحجم من البيانات» Cae‏ إلى جنب مع التطور السريع لقوة المعالج والتوازي مع أجهزة 
الكمبيوتر» جعل من الممكن الحصول على كميات كبيرة من البيانات ودراستها بسهولة نسبية. 
من السهل أن نفهم لماذاكان للتعلم الآلي مثل هذا التأثير العميق على العالم» فما هو أقل وضوحًا 
هو ما هي قيود التعلم Js sy‏ استمرار لهذا القسم» سوف نوضح هذه القيود. 


uai 


ذكر ديفيد بروكس لأول مرة مصطلحًا جديدًا يسمى "اعتقاد البيانات"" أو اتجاه البياناتفي مقالته 
عام 32013( صحيفة نيويورك تايمز بعنوان "فلسفة البيانات". اعتقاد البيانات هو نظام أخلاقي 
تمت دراسته على نطاق واسع ونشره من قبل المؤرخ الشهير يوفال نوح هراري. Gis‏ لهراري. 
يشير اعتقاد البيانات إلى مرحلة جديدة من الحضارة ندخلهاء حيث نعتمد على الخوارزميات 
والبيانات أكثر من اعتمادنا على حكمنا ومنطقنا. من منظور الإيمان بالبيانات» يبدو أننا نواجه 
صعوبةفي إدارة البيانات التي ينتجها العالم وفهم عقولنا وأجسادنا. بدلاً من tld‏ يجب أن نترك 
قراراتنا للخوارزميات التي تعرفنا بشكل أفضل. إنهم يقررون من سيواعدون. وماذا يأكلون. وأين 
يذهبون. فكرة الوثوق بالبيانات والخوارزميات لها مزايا وعيوب أكثر من حكمنا. من الواضح Lal‏ 
نستفيد من هذه الخوارزميات. UB Vy‏ لا نستخدمهاني المقام الأول. تسمح UJ‏ هذه 
الخوارزميات بأتمتة العمليات من خلال إصدار أحكام مستنيرة باستخدام البيانات الموجودة. 


1 dataism 


الفصل الرابع: مقدمة في تعلم الآلة 175 


ومع US‏ يعني glia‏ بعض الأحيان استبدال وظيفة شخصية بخوارزمية لها عواقب أخلاقية. 
علاوة على US‏ إذا حدث خطأ ماء فمن نلوم؟ أكثر مواضيع المناقشة شيوعاني الوقت الحالي 
هي السيارات ذاتية Go!‏ كيف يجب أن تتفاعل السيارةفي حالة حدوث تصادم مميت؟ هل 
يجب أن نختار اتباع إطار أخلاقي معين عند شراء سيارةفي المستقبل؟ على من يقع اللوم إذا قتلت 
سيارتي شخصًا على الطريق؟ من الواضح» مع US‏ أن التعلم الآلي لا يمكنه إخبارنا بأي شيء 
عن القيم المعيارية التي يجب أن نقبلها؛ بمعنى» كيف يجب أن نتصرففي العالمفي موقف معين؟ 


البيانات 


البيانات» هذا هو القيد الأكثر وضوحا. إذا قمت بإطعام نموذج بشكل سيئ» فسوف يعطيك نتائج 
سيئة. يمكن أن يتجلى ذلك بطريقتين: نقص البيانات ونقص البيانات الجيدة. 


نقص البيانات 


تتطلب العديد من خوارزميات التعلم الآلي كميات كبيرة من البيانات قبل أن تبدأفي تقديم نتائج 
مفيدة. وخير مثال على ذلك هو الشبكة العصبية. الشبكات العصبية هي آلات تستهلك البيانات! 
وتتطلب كميات كبيرة من بيانات التدريب. كلما كانت البنية أكبرء زادت الحاجة إلى مزيد من 
البيانات لتحقيق نتائج مقبولة. WE‏ ما تكون زيادة البيانات هي الحل المفضل. 

نقص البيانات الجيدة 


لنفترض أنك تعتقد أنه يمكنك الغش من خلال إنشاء عشرات الآلاف من نقاط البيانات المزيفة 
لوضعها على شبكة عصبية. ماذا يحدث عندما تطعمه للشبكة؟ يتم تدريبها على هذه البيانات 
ولن تعمل بشكل جيد عند اختبارها على مجموعة بيانات غير مرئية (مجموعة تجريبية). كانت 
لديك البيانات ولكن جودة البيانات لم تكن عالية. مثلما يمكن أن يؤدي عدم وجود ميزات جيدة 
إلى ضعف أداء الخوارزميةء فإن عدم وجود بيانات جيدة يمكن أن يحد من إمكانات النموذج 
الخاص بك. لن تقوم أي شركة بتنفيذ نموذج التعلم الآلي الذي يؤدي أداءً أسوأ من الخطأ على 
المستوى البشري. وبالمثل» OB‏ استخدام نموذج تم تدريبه على مجموعة من GOULS‏ موقف 
معين قد لا ينطبق بالضرورة على الموقف الثاني. وأفضل مثال يمكن إعطاؤهني هذا الصدد هو 
التنبؤ بسرطان الثدي. تحتوي قواعد بيانات التصوير الشعاعي للثدي على العديد من (al‏ 
لكنها تعاني من مشكلة تسببتفي مشاكل كبيرةفي السنوات الأخيرة: جميع صور الأشعة السينية 
Co‏ لنساء بيض. قد لا يبدو هذا مشكلة d ues‏ ولكنفي الواقع» فإن النساء السوداوات PSV‏ 
عرضة بنسبة G42‏ المائة للوفاة من سرطان الثدي بسبب مجموعة واسعة من العوامل التي قد 


1 data-eating 
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تشمل الاختلافاتفي التشخيص والحصول على الرعاية الصحية". WY‏ فإن تدريس خوارزمية 
بشكل أساسي على النساء البيض له تأثير سلبى على النساء السودفي هذا الصدد. ما نحتاجدفي هذه 
الحالة بالذات هو المزيد من صور الأشعة السينية للمرضى السودفي قاعدة البيانات التدريبية» 
والمزيد من الميزات المتعلقة بسبب هذه الزيادة بنسبة 42 G7‏ احتمالية أداء خوارزمية التصنيف 


قابلية التفسير 


قابلية التفسير' هي إحدى المشاكل الرئيسية للتعلم الآلي. شركة استشارات ذكاء اصطناعي تحاول 
تقديم اقتراحات لشركة تستخدم الأساليب الإحصائية التقليدية فقط إذا كان النموذج غير قابل 
للتفسير ولا يمكنك إقناع عميلك كيف أدركت أن هذه الخوارزمية قد وصلت إلى هذا القرارء ما 
مدى احتمالية ثقتك بك وخبرتك؟ يمكن أن تبدو هذه النماذج بعد ذلك عاجزة LU‏ ما لم 
يكن بالإمكان تفسيرها. لهذا السبب» تعتبر قابلية التفسير ميزة مهمة للغاية يجب أن تتبعها أساليب 
التعلم الآلي من أجل تطبيقها Gas‏ (تم إجراء الكثير من الأبحاث لمقاربة قابلية التفسير) 


الشرج مقابل التفسير 


من التشخيصات الطبية إلى سيناريوهات الأعمال» تستخدم نماذج التعلم JY‏ لاتخاذ قرارات 
مهمة. للثقةفي الأنظمة التي تعمل مع هذه النماذج» نحتاج إلى معرفة كيف تتنباً هذه النماذج. هذا 
هو سبب أهمية الفرق بين النموذج القابل للتفسير والنموذج التوضيحي. تعتمد الطريقة التي 
ندرك بها النماذج والدرجة التي يمكننا من WIDE‏ فهمها Go‏ على ما إذا كانت قابلية الشرح أو 
قابلة التفسير”.في مجال التعلم الآلي والذكاء الاصطناعي, غالبا ما يتم استخدام الشرح والتفسير 
بالتبادل.في حين أنهم مرتبطون ارتباطًا وثيقاء فمن الأفضل فهم اختلافاتهم. OY‏ دعنا نرى مدى 
تعقيدها عندما las‏ التعمق أكثرني أنظمة التعلم الآلي. 

تعني قابلية الشرحفي التعلم SW‏ أنه يمكنك شرح ما يحدثفي النموذج من الإدخال إلى 
الإخراج» مما يجعل النموذج US‏ بعبارة أخرى. فإن فهم الميزات التي تلعب das‏ التنبؤ 
بالنموذج ولماذا يفعلون ذلك هو مفهوم قابل للتفسير. 

في المقابلء يتم تعريف قابلية التفسير على أنها الدرجة التي يمكن للإنسان أن يفهم بها سبب 
القرار أو الدرجة التي يمكن للإنسان أن يتنباً بها باستمرار بنتيجة نموذج التعلم الآلي. بمعنى PT‏ 
إنها الدرجة التي يمكنك من خلالها توقع ما سيحدث Fly‏ على التغييراتفي المدخلات أو 


* إذاكنت تريد معرفة المزيد عن هذا . أوصى بقراءة هذا المقال: 
https://news.mit.edu/2019/using-ai-predict-breast-cancer-and-personalize-care-0507‏ 


c Explanability 


2 interpretability 
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المعاملات الحسابية. على سبيل المثالء تحتاج السيارة إلى وقود لتتحرك, أي الوقود الذي يدفع 
المحركات: قابل للتفسير. فهم كيف ولماذا يستهلك المحرك ويستخدم الوقود: يمكن شرحه. 
باختصارء القابلية للتفسير تعني القدرة على التعرف على الية دون معرفة السبب بالضرورة. 
التفسير هو القدرة على شرح ما يحدث بشكل كامل. 

باختصار. يمكن للبشر فهم النموذج القابل للتفسير دون أي مساعدة أو تقنية أخرى. بمعنى 
آخرء لا يمكننا فهم LAS‏ توقع هذه النماذج إلا من خلال النظرني معاملات النموذج. يمكن القول 
إن النموذج القابل للتفسير يقدم تفسيره.في المقابلء لا يقدم النموذج القابل للشرح تفسيرًا وهو 
أكثر تعقيدا. كلما كان النموذج أكثر تعقيداء قل توضيحيًا وبالتالي أقل قابلية للفهم من قبل البشرء 
وكلما زادت التقنيات التي يحتاجها لفهم كيفية عمل التنبات.. 

وتجدر الإشارة إلى أن القابلية للتفسير والشرح يُرى أحيانًا be‏ إلى جنب وينقسمان إلى فئتين 
من الصندوق الأسود ونماذج الصندوق الشفاف (الصندوق الزجاجي أو الصندوق الأبيض) بناءً 
على درجة التعقيدني شرح النماذج. نموذج مع القدرة على شرح نموذج الصندوق الشفاف وفي 
النقطة المعاكسة هو نموذج الصندوق الأسود. بمعنى ST‏ يقف نموذج الصندوق الأسودفي 
تناقض صارخ مع نموذج الصندوق الشفاف. من هذا المنظور. غالبًا ما تكون نماذج الصندوق 
الأسود معقدة ويصعب تفسيرها. من ناحية أخرى. فإن نماذج الصناديق الشفافة بسيطة للغاية 
بحيث يمكن شرح تشغيلها مباشرة. 
التعلم الآلى القابل لاتفسير 
نقول إنه يمكن تفسير ما يمكن فهمه. مع وضع Glia‏ الاعتبارء نقول إنه يمكن تفسير النموذج 
إذا كان يمكن للإنسان وحده فهمه دون مساعدة من أسلوب آخر. يمكننا أن ننظر إلى معاملات 
qoe‏ أو ملخص النموذج ونفهم بالضبط سبب اتخاذ النموذج للتنبؤ أو بعبارة أخرى قرارًا 
معيتا. تتضمن أمثلة النماذج القابلة للتفسير أشجار القرار والانحدار الخطي. OY‏ يمكننا فحص 
معاملات النموذج مباشرة واستنتاج LAS‏ تحويل هذه النماذج لمدخلاتها إلى مخرجات. لذلك 
فإن هذه النماذج لا تحتاج إلى شرح ولا تحتاج إلى مزيد من الشرح. باختصار, القابلية للتفسير 


لا تحتاج إلى شرح. 
التعلم الآلى القابل epi‏ 


يمكن اعتبار نموذج التعلم الآلي على أنه دالة تكون خصائص نموذجها مدخلات والتنبؤات هي 
مخرجات. الدلة التي يصعب شرحها للبشر تسمى الصندوق الأسود. بمعنى آخر. نحتاج إلى 
طريقة أو تقنية إضافية حتى نتمكن من النظر إلى الصندوق الأسود وفهم كيفية عمل النموذج. 
مثال على هذا النموذج هو الغابة العشوائية. ببساطةء تتكون الغابة العشوائية من العديد من أشجار 
القرار التي يتم فيها أخذ تنبؤات جميع الأشجار الفرديةفي الاعتبار عند إجراء التنبؤ النهائي. لفهم 
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كيفية عمل الغابة العشوائية» يجب أن نفهمفي نفس الوقت كيف تعمل كل الأشجار الفردية. حتى 
مع وجود عدد قليل من الأشجارء لن يكون هذا ممكنًا. 

ترتبط درجة قابلية الشرح ارتباطًا مباشرًا بمدى تعقيدات نموذج الصندوق الأسود. النماذج 
الأكثر تعقيدا أقل قابلية للشرح (يصعب شرحها وتتطلب المزيد من العمل لفك تشفيرها). على 
سبيل المثال» عندما نبدأفي دراسة الخوارزميات مثل الشبكات العصبية العميقة» يصبح الموقف 
أكثر تعقيدا. AlexNet‏ « وهي شبكة عصبية التفافية تستخدم للتعرف على الصور . لديها 
4 معامل. بمجرد النظر إلى وزن معاملات هذا النموذج» لا يمكن للبشر فهم كيفية 
عمله. 


لماذا pin‏ الشرح والتفسير مهمين فى التعلم الآلى € 


نظرًا oN‏ مجالات مثل الرعاية الصحية تسعى إلى نشر الذكاء الاصطناعىء أو بشكل أكثر دقق 
أنظمة التعلم العميقء حيث تكون أسئلة الشفافية ذات أهمية خاصةء إذا لم نتمكن من تحسين 
القابلية للتفسير بشكل صحيح وتقديم التفسيرفي نهاية المطاففي خوارزمياتناء OB‏ التأثير 
بصرف النظر عن الاعتبارات المهنية التى يجب إجراؤهاء هناك أيضًا حجة مفادها أن تحسين 
القابلية للتفسير والشرح مهم حتىفي سيناريوهات الأعمال الأبسط. يمكن أن يساعد فهم كيفية 
عمل الخوارزمية حقافي مواءمة أنشطة علماء ومحللي البيانات بشكل أفضل واحتياجاتهم 
التنظيمية الرئيسية. 

يمكن أن تسهل القابلية للشرح فهم الجوانب المختلفة للنموذج وتؤدي إلى رؤى يمكن 
استخدامها من قبل مختلف أصحاب المصلحة للمساعدةفي معالجة الاهتمامات الرئيسية التالية 
عند نشر منتج أو اتخاذ قرارات Fly‏ على التوقعات الآلية: 


٠‏ الحقيقة: هل نحن على يقين من أن جميع متغيرات الاهتمام فقط لعبت دورًا في 
قرارنا؟ هل نحن على يقين من إزالة LL‏ والارتباطات غير الصحيحة من 
نتائجنا؟ 

o‏ القوة: فى حالة وجود بيانات مفقودة أو مشوشة . هل نحن على يقين من أن هذا 
e‏ التحيز: هل نحن على دراية بأي تحيزات محددة تعاقب مجموعة من الأشخاص 
بشكل غير e Jale‏ وإذا كان الأمر كذلك . فهل يمكننا تحديدها وتصحيحها؟ 

e‏ التحسين: كيف يمكن تحسين النموذج التنبئي؟ كيف ستؤثر بيانات التدريب 
الإضافية أو مساحة الميزات المتقدمة على النموذج؟ بمعنى آخر e‏ إذا كنت تعرف 
سبب وكيفية عمل نموذجك » فأنت تعرف بالضبط ما تحتاج إلى تعديله وتحسينه. 
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e‏ قابلية النقل: كيف يمكن تطبيق النموذج التنبئي لمجال على آخر؟ ما هي ميزات 
البيانات والنماذج التي ينبغي تكييفها لهذه القابلية للنقل؟ 

e‏ الثقة: الثقة مهمة جد في المجالات عالية الخطورة مثل الرعاية الصحية أو المالية. 
قبل أن يتم استخدام حلول التعلم الآلي والوثوق بها » يحتاج جميع أصحاب 
المصلحة إلى فهم كامل لما يفعله النموذج. إذا ادعت أن نموذجك يتخذ قرارات 
أفضل ويلاحظ blot‏ لا يراها البشر . فيجب أن تكون قادرًا على دعمها DNL‏ 
سيكون الخبراء في هذا المجال متشائمين بطبيعة الحال بشأن أي تقنية تدعي أنها 
تفهم المشكلة بشكل أفضل مما يفعلون. 

e‏ المطابقة: القدرة على شرح النموذج للعلماء وصناع القرار أمر بالغ الأهمية لضمان 
الامتثال لسياسات الشركة ومعايير الصناعة واللوائح الحكومية. وفقا للمادة 14 من 
قانون حماية البيانات الأوروبي  (GDPR)‏ عندما تستخدم شركة أدوات آلية لصنع 
القرارء يجب أن توفر معلومات مفيدة حول المنطق ذي الصلة بالإضافة إلى الأهمية 
والعواقب المتوقعة لهذه المعالجة. تم سن لوائح مماثلة في جميع أنحاء العالم. 


أضافة 3l‏ قب AT‏ امل مع الت "T‏ 


على الرغم من Ul‏ كبشر نتفوق في العديد من المهام المعرفية . بما في ذلك التفكير النقدي 
والإبداع والتعاطف والعقلية c‏ إلا UT‏ لسنا ممتازين في إدارة التعقيدات. وجد علماء النفس أن 
البشر يمكنهم فقط تتبع حوالي 7+2 شيء في ذاكرتهم العاملة. لكن الأجهزة (مثل الكمبيوتر) 
يمكنها تتبع ملايين ومليارات العناصر (مقيدة فقط بحجم (RAM‏ نظرًا OY‏ مشكلة الصندوق 
الأسود هي مجرد مشكلة معقدة « يمكننا استخدام تحليل الآلة أو خوارزميات التعلم الآلي CEM‏ 
لشرح الصندوق الأسود. 

ومع ذلك . فأنت تضيف خطوة إضافية إلى عملية التطوير. في الواقع c‏ ربما تضيف عدة 
خطوات. من وجهة النظر هذه c‏ يبدو أنك تحاول التعامل مع التعقيد بمزيد من التعقيد . وهذا 
صحيح إلى حد ما. ما يعنيه هذا عمليًا هو أننا إذا أردنا أن نكون جادين Gee‏ بشأن القابلية للتفسير 
والشرح » فيجب أن يكون هناك تغيير أوسع في الطريقة التي يتم بها العلم وكيف يعتقد الناس 
أنه ينبغي القيام به. 

أخيرًا e‏ بينما يصعب على الدماغ البشري تفسير نماذج الصندوق الأسود . يمكن تفسيرها 
جميعًا بمساعدة التحليل والخوارزميات. يسمح لنا العدد المتزايد لأساليب التعلم SY‏ وأطر 
العمل التي تم تطويرها في هذا المجال بالنظر داخل الصناديق السوداء وتحويلها إلى صناديق 
زجاجية. لذلك e‏ يمكن القول أن "مشكلة الصندوق الأسود" ليست في الحقيقة مشكلة لا يمكن 
حلها . وبالتالي التشكيك في قوة هذه النماذج. إن قادة الأعمال الذين يضحون باستخدام التعلم 
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الآلي بسبب طبيعة الصندوق الأسود للنماذج يتجاهلون بشكل أساسي طريقة فعالة وموثوقة 
لتحسين قرارات أعمالهم لشيء يمكن حله فقط. 
o JI Glial‏ . مه لذ النماذج القابلة B ^ y‏ 
يمكن التعامل مع القابلية للتفسير بطريقتين: 

1. عامة. هذا شرح عام لسلوك النموذج ويعطينا صورة كبيرة للنموذج وكيف تؤثر 

خصائص البيانات بشكل جماعى على النتيجة. 

2. محلى. تخبرنا هذه الطريقة كيف تؤثر الميزات بشكل فردي على النتيجة. 
يجب توخى مستوى من الحذر عند استخلاص النتائج باستخدام هذه FRU‏ هذا لأن هذه 
التقنيات يمكن أن توفر فقط تقريبًا LAS)‏ توقع النموذج بالفعل. لتأكيد كل استنتاج» يمكن 
استخدام العديد من التقنيات معًا أو يمكن تأكيدها باستخدام تصور البيانات. يمكن أن تكون 
معرفة المجال أيضًا أداة Loge‏ ويجب تحليل أي نتيجة تتعارض مع الخبرة أو المعرفة السابقة 
Gals‏ التفصيل» 


ما هو ami‏ التعلم (JUI‏ الذى يجب أن نستخدمه؟ 


على الرغم من مناهج التعلم المختلفة (التعلم الخاضع للإشراف . والتعلم غير الخاضع 
للإشراف. والتعلم المعزز) والخوارزميات المختلفة . فإن السؤال هو LAS‏ تحديد النهج الذي 
يجب استخدامه لحل مشكلة معينة؟ 

تتمثل إحدى الإستراتيجيات في تجربة جميع مناهج التعلم الآلي الممكنة ثم التحقق من النهج 
الأفضل. تكمن مشكلة هذه الطريقة في أنها قد تستغرق Gy‏ طويلاً. هناك العشرات من 
خوارزميات التعلم الآلي » ولكل منها وقت تشغيل مختلف. اعتمادًا على مجموعة البيانات » قد 
تستغرق بعض الخوارزميات ساعات أو حتى أيام حتى تكتمل. من المخاطر الأخرى لتنفيذ 
استراتيجية "جرب جميع المناهج" أنه قد ينتهي بك الأمر باستخدام خوارزمية التعلم الآلي لنوع 
من المشكلات غير مناسب حقا لتلك الخوارزمية المعينة. إنه مثل استخدام مطرقة لتشديد 
المسمار. المطرقة هي بالتأكيد أداة مفيدة » ولكن فقط عند استخدامها للغرض المقصود منها. 

إذا كنت تريد إحكام ربط البرغي » فاستخدم Cs‏ وليس مطرقة. 
عند تحديد نوع خوارزمية التعلم الآلي المراد استخدامها » يجب Vol‏ فهم المشكلة GLS‏ ثم 
تحديد ما تريد تحقيقه. فيما يلي إطار عمل مفيد يمكن استخدامه لتحديد الخوارزمية المناسبة: 
* هل ترغب في تقسيم مجموعة بيانات غير مسماة إلى مجموعات بحيث تتمتع كل 
مجموعة بخصائص متشابهة (على سبيل المثال e‏ تقسيم العملاء)؟ إذاكانت الإجابة 
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بنعم » فاستخدم خوارزمية التجميع (التعلم غير الخاضع للإشراف) مثل k-mean‏ 
أو التجميع الهرمي أو النماذج المختلطة غاوسيان. 

" هل تريد توقع قيمة مستمرة thy‏ على مجموعة من الميزات (مثل توقعات سعر 
السكن)؟ إذا كانت الإجابة بنعم . استخدم خوارزمية الانحدار (التعلم الخاضع 
للإشراف) مثل الانحدار الخطي. 

" هل تريد توقع فئات منفصلة؟ هل لدينا مجموعات بيانات تم تمييزها بالفعل 
بالفئات؟ إذا كانت الإجابة بنعم على كلا السؤالين » فاستخدم خوارزمية تصنيف 
(التعلم الخاضع للإشراف) مثل مصنف Naive Bayes‏ أو KNN‏ أو الشبكات 
العصبية أو OV‏ المتجهات الداعمة. 

* هل تحاول تقليل عدد الميزات إلى عدد أقل من الميزات؟ استخدم خوارزميات 
تقليل الأبعاد . مثل تحليل المكونات الرئيسية PCA‏ 

" هل تحتاج إلى خوارزمية تستجيب لبيئتها وتتعلم باستمرار من التجربة . كما يفعل 
البشر؟ إذاكانت الإجابة بنعم . استخدم نهج التعلم المعزز. 

لكل من الأسئلة coSed‏ يمكنك طرح الأسئلة التالية للتحقق من الخوارزمية المناسبة للاستخدام. 
علي سبيل المثال: 

e‏ هل نحتاج إلى خوارزمية يمكن بناؤها وتدريبها واختبارها بسرعة؟ 
e‏ هل نحتاج إلى نموذج يمكنه التنبؤ بسرعة؟ 
© ما مدى دقة النموذج؟ 
« هل عدد الميزات أكبر من عدد العينات؟ 
« هل نحتاج إلى نموذج يسهل تفسيره؟ 
© ما هي معايير التقييم المهمة لتلبية احتياجات العمل؟ 
« ما مقدار معالجة البيانات التي نريد القيام بها؟ 


antal‏ الفصل الرابع 


" التعلم الآلي هو طريقة تعمل على تحسين أداء النظام من خلال التعلم التجريبي من خلال 
الأساليب الحسابية. 

" في أنظمة الكمبيوتر ‏ توجد الخبرة في شكل بيانات ٠‏ وتتمثل المهمة الرئيسية للتعلم 
JT‏ في تطوير خوارزميات التعلم التي تقوم بنمذجة البيانات. 

c‏ في النهج التعلم الخاضع للاشراف » يتم تغذية مجموعة من عينات التدريب بالإجابات 
الصحيحة للخوارزمية وتحاول الخوارزمية تعلم دالة rly‏ على هذه البيانات والإجابات 
الصحيحة حتى تتمكن من التنبؤ بشكل صحيح بالقيم المستهدفة للعينات الجديدة. 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات py‏ 


في التعلم الخاضع LAW‏ إذا كانت bly‏ مشكلة التعلم متقطعة . فهي مشكلة 
التصنيف » وإذا كانت قيم البيانات مستمرة » فإنها تسمى الانحدار. 

في النهج غير الخاضع للاشراف. لا يتم توفير الإجابات الصحيحة للخوارزمية » ولكن 
بدلاً من ذلك تحاول الخوارزمية تحديد أوجه التشابه بين المدخلات بحيث يتم تجميع 
المدخلات التي لها ميزة مشتركة معًا. 

في التعلم المعزز . يحاول الوكيل حل مشكلة عن طريق التجربة والخطأ من خلال 
التفاعل مع بيئة طبيعتها غير معروفة للوكيل. 

يركز التعلم الانتقالي على استخراج البيانات من مجال مشابه لزيادة القدرة على التعلم أو 
تقليل عدد العينات المصنفة المطلوبة فى المجال المستهدف. 

يعد التعلم المتعدد المهام نموذجًا Au‏ يتم من خلاله تعلم العديد من المهام ذات 
الصلة في وقت واحد من أجل زيادة كفاءة النموذج إلى الحد الأقصى e‏ كما يتم تحسين 
العديد من دوال الخطأ في وقت واحد. 

التعلم بدون عينات هو طريقة تعلم خاضعة للاشراف ولكن بدون بيانات تدريبية من هذه 
الفئة. 

التعلم بدون عينات قادر على حل مشكلة ما دون تلقي أي تعليمات إرشادية من تلك 
المشكلة. 

التعلم النشط هو فرع من فروع التعلم SW‏ حيث يمكن لخوارزمية التعلم التواصل مع 
المستخدم لتمييز البيانات بالمخرجات المرغوبة. 

الغرض من التعلم النشط هو زيادة أداء خوارزمية التعلم الآلي مع الحفاظ على عدد 
العينات التعليمية E‏ 

الاستراتيجيتان الأساسيتان في التعلم النشط هما أخذ عينات عدم اليقين وأخذ عينات 


من مساحة. 
في خوارزميات التعلم الجماعي . تكون البيانات الإرشادية متاحة بالكامل من البداية إلى 
وكيل التعلم. 

في خوارزميات التعلم المتزايد » قد لا تكون بيانات التدريب معروفة أو مكتملة من البداية 
أو يمكن إضافتها بمرور الوقت. 

تعمل خوارزميات التعلم الآلي على أتمتة عملية تعلم النموذج e‏ مما يوضح العلاقة بين 
الخصائص الوصفية وخاصية الهدف في مجموعة البيانات. 

الهدف من التعلم SY‏ هو العثور على النموذج التنبئي الأكثر عمومية. 

يستخدم التعلم الآلي والتقيب في البيانات نفس التقنيات وتتداخل فيما بينها. 
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الفرق بين النموذج والخوارزمية. 
" التعرف على مفاهيم التحيز والتباين. 
" طرق التقييم. 
" طرق ضبط المعاملات الفائقة. 


" تقبيم الأداء. 
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هناك ارتباك شائع للمبتدئين في التعلم الآلي وهو الفرق بين "خوارزمية التعلم الآلي" و "نموذج 
التعلم الآلي". غالبا ما يتم استخدام المصطلحين بالتبادل c‏ مما قد يكون مربكًا. باختصار « إنهما 
ليسا متمائلين » فإن خوارزمية التعلم SY‏ تشبه الإجراء الذي يتم تشغيله على البيانات للعثور 
على الأنماط والقواعد المخزنة والمستخدمة لإنشاء نموذج للتعلم الآلي. في هذا القسم. سنخبرك 
ما هو الفرق بين الخوارزميات والنماذج في التعلم الآلي؟ 


الخوارزمية 
خوارزمية التعلم JY‏ هي إجراء يتم تنفيذه على البيانات LEY‏ "نموذج" للتعلم الآلي. بمعنى 
ou‏ تؤدي خوارزمية التعلم الآلي "التعرف على الأنماط" و "التعلم" من البيانات. لتبسيط 
الموضوع . يمكن إظهار العلاقة بينهما على النحو التالي: 
نموذج التعلم الآلي ¬ خوارزمية التعلم الآلي 

هناك أنواع مختلفة من الخوارزميات بوظائف وأغراض مختلفة. الوظائف الثلاثة الرئيسية هي: 

o"‏ الانحدار: للتنبؤات حيث يكون الناتج قيمة مستمرة. 

" التصنيف: يستخدم للتنبؤات التي يكون ناتجها قيمة مصنفة. 

" التجميع: لتجميع الأشياء المتشابهة أو نقاط البيانات في مجموعات. 


عندما تقوم بتدريب "خوارزمية" بالبيانات, فإنها تصبح "نموذجًا". 


تشبه خوارزميات التعلم الآلي أي خوارزمية أخرى في علوم الكمبيوتر. وبالتالي e‏ فإن خوارزميات 
التعلم الآلي لها الخصائص التالية: 


e‏ يمكن وصف خوارزميات التعلم الآلي باستخدام الرياضيات وشبيه الكود (سودوكود). 

e‏ يمكن تحليل أداء خوارزميات التعلم JI‏ ووصفها. 

© يمكن تنفيذ خوارزميات التعلم الآلي مع أي من لخات البرمجة الحديثة. 
على سبيل المثال» قد ترى خوارزميات التعلم الآلي ذات الشبيه كود أو الرياضيات في المقالات 
والكتب المدرسية. قد ترى الأداء الحسابي لخوارزمية تعلم آلة معينة مقارنة بخوارزمية أخرى 
معينة. يمكن للباحثين تطوير خوارزميات جديدة Vales‏ للتعلم الآلي » ويمكن لمتخصصي التعلم 
الآلي استخدام خوارزميات التعلم الآلي القياسية في مشاريعهم. هذا GLS‏ مثل أي مجال آخر في 
علوم الكمبيوتر حيث يمكن للباحثين اختراع خوارزميات فرز جديدة GLS‏ » على سبيل المثال e‏ 
ويمكن للمبرمجين استخدام خوارزميات الفرز القياسية في تطبيقاتهم. 
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النموذج 
"النموذج" في التعلم SY‏ هو ناتج خوارزمية التعلم SY‏ التي تعمل على البيانات وتمثل ما تم 
تعلمه بواسطة خوارزمية التعلم الآلي. لإظهار العلاقة بينهما . يمكننا استخدام العلاقة التالية: 


نموذج التعلم الآلي- بيانات النموذج + خوارزمية التنبؤ 
أخيرًا » النموذج هو "شيء" يتم تخزينه على بيانات التدريب بعد تنفيذ خوارزمية التعلم الآلي 
ويعرض القواعد والأرقام وهياكل البيانات المحددة الأخرى للخوارزمية اللازمة للتنبؤ. 
"نموذج" التعلم ga JU!‏ المكان الذى يتم فيه تخزين ناتج "الخوارزمية". يمكن حفظ 
النموذج لوقت لاحق aoí Jong‏ باستخدام الوظيفة المحفوظة مسبقًا 


للخوارزمية للتنبؤات الجديدة. إذا تم تدريب النموذج بكفاءة وبشكل كاف. فيمكن 
استخدامه لعمل تنبؤات إضافية حول بيانات loo‏ بمستوق معين من aöl‏ 
والموثوقية. 


الاختلافات بين النماذج والخوارزميات فى التعلم الآلى 


الآن بعد أن عرفنا ما هي الخوارزمية والنموذج . أصبح من السهل معرفة كيفية ارتباطهما. كما 
ذكرنا سابقا . يتم تشغيل خوارزمية على البيانات لإنشاء نموذج. يتكون هذا النموذج من بيانات 
وطريقة لاستخدام البيانات للتنبؤ ببيانات جديدة. هذه الطريقة تشبه خوارزمية التنبؤ تقريبًا. ومع 
ذلك » لا تخزن جميع النماذج خوارزمية تنبؤ. البعض . مثل KNN‏ » يخزن مجموعة البيانات 
بأكملها » والتي تعمل كخوارزمية تنبؤ. نحن CUI‏ نريد "نموذجً" للتعلم الآلي ولا نهتم 
بالخوارزمية التي تقف وراءه. بمعنى آخر . الخوارزمية هي مجرد المسار الذي نتبعه للحصول 
على النموذج. ومع ذلك . من المهم معرفة الخوارزمية التي يجب تطبيقها على نموذجك 
للحصول على أفضل النتائج. بمجرد أن تعرف هذا » لا يوجد سوى بضعة أسطر من التعليمات 
البرمجية وعدد قليل من مستويات التفاعل حتى تتمكن من الحصول على نموذج فعال بالكامل. 
باختصار » يمكن تحديد الفرق بين النموذج والخوارزمية في التعلم SY‏ على النحو التالي: 

e‏ خوارزميات التعلم JY‏ هي إجراءات يتم إجراؤها على البيانات للعثور على الأنماط والتعلم. 
© نماذج التعلم JV‏ هي نتاج الخوارزميات وتتكون من بيانات وخوارزمية تنبق. 

© توفر خوارزميات التعلم الآلي نوعًا من البرمجة الآلية حيث تمثل نماذج التعلم الآلي البرنامج 


بقفسة. 


e 39.03‏ التعلم الآلى هو برنامج تتم كتابته gl‏ إنشاؤه أو تعلمه UóLà D‏ بواسطة خوارزمية 
التعلم الآلى لحل مشكلتنا. بصفتنا مطورين, فإننا أقل اهتماما ب "التعلم" الذى تقوم 
به خوارزميات التعلم الآلى بمعنى الذكاء الاصطناعى. نحن لا نهتم بمحاكاة عمليات 
التعلم. قد aay‏ بعض الناس هذا [iio‏ للاهتمام. لكن هذا ليس سبب استخدامنا 


لخوارزميات التعلم الآلى. Vay‏ من ذلك. نحن مهتمون أكثر بقدرات البرمجة الذاتية GUI‏ 
توفرها خوارزميات التعلم الآلى. Yp‏ إنشاء نموذج فعال oia‏ نتمكن من دمجه فى 
مشروعنا البرمجى. تقوم خوارزميات التعلم (JUI‏ بالبرمجة الذاتية. ونماذج التعلم الآلى 
هی برامج تم إنشاؤهالناء 


الإطار العام لخوارزميات التعلم الآلى 

يتمثل الإطار العام لخوارزميات التعلم الآليفي بناء نموذج لتوليد مخرجات لمدخلات جديدة لم 
تتم ملاحظتها ey‏ باستخدام مجموعة من البيانات. يمكن أن يشتمل إطار التعلم الموضحفي 
وأخيرًا تقييم النموذج لإنتاج المخرجات» وسيتم شرح كل منهافي الأقسام ASS‏ 


استخدام البيانات التدريبية لبناء النموذ 
اختبار النموذج م المي ريبية لبناء النموذج 


بناء النموذج 


الشكل 1-5 الإطار العام لخوارزميات التعلم الآلي 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


خوارزمية التعلم ودالة الخطأ 


خوارزمية التعلم A‏ هي تعيين مجموعة بيانات محدودة S‏ إلى الدالة المرشحة f‏ حيث تكون f‏ 
قابلة للقياس. نفترض أن بياناتنا Xi yi‏ موزعة بشكل مستقل وموحد من مساحة الاحتمال 
X X Y‏ بالحجم م. نحدد معنى "الأداء الجيد"في مهمة ما عن طريق إدخال Il‏ الخطأء دالة 
قابلة للقياس .L:X X YXF>[0,0)‏ تكون هذه الخطأ gk Gh‏ شكل 
LG y, f) = LOn f )((‏ لبعض دوال بل . ومن ثم» سوف نستخدم طريقة الكتابة هذه فيما 
يلي. بطبيعة Sed‏ يجب أن نعتبر Ly, f (x)‏ مقياسًا لتكلفة التنبؤ ل f(x)‏ حيث Y‏ هي 
التسمية الحقيقية ل . إذا توقعنا أن c f (X) = y‏ فإننا نقول إن تنبؤنا عند X‏ ممتاز Y)‏ تشوبه 
شائبة) ونتوقع ألا نعاني من أي خطأ عند × (على سبيل المثال 0 = (y, P)‏ يعد اختيار 
دالة الخطأ الصحيحة جزءًا مهما من استخدام التعلم GSW‏ الممارسة. فيما يلي نقدم عينات 
على المهام ذات مساحات البيانات المختلفة X, Y‏ ودوال الخطأ المختلفة 1. 

مثال 1: تصنيف الصور 

تصنيف الصورة يتعلق الأمر بتصنيف الصورة × إلى إحدى الفثات المحتملة C‏ هنا 
53 حيث H‏ و W‏ هما ارتفاع الصورة وعرضها و 3 هي قنوات الألوان (الأحمر 
والأخضر والأزرق). مساحة التسمية محدودة لمجموعة محدودة Y = C‏ ينتج ناتج نموذج 
المصنف توزيعًا متقطعاً (م2,... f (Xj) = (Py‏ على الفئات c‏ حيث تتوافق Pe‏ مع احتمال 
أن تكون صورة الإدخال x‏ من الفئة ©. كدالة خطأ . نستخدم خطأ الانتروبيا المتقاطعة! لهذه 
المشكلة: 


C 
1 
Lf) = ==> 10: = Hoge), م‎ = f(x) 


مثال 2: توقع خصائص الكريستال 


من الممارسات الشائعة في علم JI ol gall‏ بخصائص البلورة (على سبيل المثال ‘ طاقة 
التكوين) من هيكلها الذري (رسم بياني بلا اتجاه). كمشكلة تعلم » إنها مشكلة انحدار مع X‏ 


1 cross-entropy loss 
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كمجموعة من الرسوم البيانية بلا اتجاه و Y= R‏ بالنسبة لدالة الخطأ . من الشائع استخدام 
متوسط الخطأ المطلق (MAE)‏ بسبب ثباته بالنسبة إلى النقاط البعيدة: 


L(y, f(x)) = ly - f (0| 
1 ul z |£ E 


يشير التعلم JW‏ إلى عملية استخدام الأدوات الإحصائية لتعلم البيانات وفهمها. التعلم يدور 
حول إيجاد الدالة ر » والتى تمتد من البيانات المحدودة S‏ إلى المساحة اللانهائية X × Y‏ 
يمكن التعبير عن هذه الفكرة على أنها تقليل الخطأ المتوقع» وتسمى أيضًا المخاطر': 


E[L(y, )0([ = I, LOFO)‏ = مع 


هدفناني التعلم هو تقليل المخاطر: 


f= argmin,.-E[L(y, f(x))] 


= argminjes | L(y, f(x) dp (x, y) 
XxY 


نظرًا oY‏ لدينا بيانات محدودة» فمن المستحيل أيضًا حساب المخاطر. بدلاً من AUS‏ نقوم 
بتقريبها باستخدام بياناتنا وننشئ مخاطر تجريبيةة: 


N 1-2 
5 1 
رجح - ماع‎ LSD) | 16.500) e.) 


هذا المفهوم» المسمى بتقليل المخاطر التجريبية. هو أساس التعلم الآلي الحديث. 

يمكن أن نأمل أنه من خلال تقليل المخاطر التجريبية على جميع الدوال القابلة للقياس» يمكننا 
تقريب التعبير الموجود على اليمين 1-2 والحصول على الدالة f = argmingepE(f)‏ 
مشابهة لدالة الحالة f"‏ . ومع ذلك ob‏ هذا غير ممكن بدون افتراضات أو شروط مسبقة 
إضافية.في هذه الإعدادات غير المقيدةء لا يمكن لأي نموذج تحقيق خطأ منخفضفي جميع 
توزيعات البيانات» وهي نتيجة لا تعرف باسم نظرية الغداء ليس بالمجان D‏ 


1 Risks 
2 empirical risk 


3 No Free Lunch Theorem 
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يسمى الفرق بين أداء دالة التعلم التجريبية f‏ وأفضل أداء ممكن بفجوة التعميم أو خطأ 
التعميم'. هدفنا هو تقليل احتمالية حدوث هذا الخطأ: 


PEP — inf pepe) > ©‏ 
إذا تم تقليص هذه الفجوة بشكل لا نهائي إلى الصفر. فالمطلوب هو: 
lim P(E(f) - infyere(f) > e) =0 v> 0‏ 


nau goy‏ التجريبى أحيانًا lha‏ التعميم. هذا لأنه. فى الواقع. فى معظم الحالات. ليس 


لدينا وصول إلى مجال × بأكمله للمدخلات. ولكن فقط إلى مجموعة التدريب الفرعية 
S‏ ونريد التعميم zLU‏ على S‏ والذى يسمى أيضا التعلم Al ài Ul‏ ^ 


الغداء ليس بالمجان ! 


نظرية الغداء المجاني CNEL)‏ التعلم الآلي الخاضع للإشراف هي نظرية تعني أساسًا أنه لا 
توجد خوارزمية للتعلم الآلي هي أفضل خوارزمية بشكل عام لكل شيء. قد يبدو غريباً بعض 
الشيء؛ لكن الفكرة التي ربما ألهمت نظرية NFL‏ اقترحها فيلسوف لأول مرةفي القرن الثامن 
عشر. نعم» لقد قرأت ذلك بشكل صحيح! ليس dle‏ رياضيات أو Lan]‏ بل فيلسوف.في 
منتصف القرن الثامن عشر الميلادي» اقترح الفيلسوف الأسكتلندي ديفيد هيوم ما أسماه مشكلة 
الاستقرا*. هذا سؤال فلسفي يسأل عما إذا كان الاستدلال الاستقرائي يقودنا Ge‏ إلى المعرفة 
الحقيقية. الاستدلال الاستقرائي هو شكل من أشكال التفكير الذي نستخلص فيه الاستنتاجات 
Ely‏ على الملاحظات السابقة للكون. والمثير للدهشة أن هذا هو بالضبط ما تفعله خوارزميات 
التعلم الآلي. إذا شاهدت الشبكة العصبية 100 صورة لبجعة بيضاء فمن المحتمل أن تستنتج أن 
جميع البجع أبيض. لكن ماذا يحدث إذا رأت الشبكة العصبية بجعة سوداء؟ يتم الآن رفض النمط 
الذي تعلمته الخوارزمية بشكل مفاجئ من خلال مثال متبادل واحد. LE‏ ما يشار إلى هذه الفكرة 
باسم مفارقة البجعة السوداء. 

استخدم هيوم هذا المنطق لتسليط الضوء على قيود الاستدلال الاستقرائي الذي لا يمكننا 
تطبيق الاستنتاجات حول مجموعة من الملاحظات على مجموعة أكثر عمومية من الملاحظات. 


1 generalization error 
? inductive learning 
3 the problem of induction 


4 the black swan paradox 
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يقول ديفيد هيومفي رسالة عن الطبيعة البشرية: Y‏ يوجد دليل يثبت ذلك» فالأشياء التي لم 
نختبرها مشابهة لما اختبرناه". بعد أكثر من 200 عام ألهمت نظرية NFL‏ التعلم الآلي. 

في مقالته! عام 1996( قدم ويلبيرت مسألة الغداء المجاني للتعلم c UNI‏ مستخدمًا الاقتباس 
من ديفيد هيوم في بداية مقالته. تنص هذه النظرية على أنه بالنسبة لمجموعة البيانات الخالية من 
ele pall‏ لکل من خوارزميات التعلم Bs A SY‏ سيكون متوسط أداء By A‏ هو Gand‏ 
جميع عينات المشكلات المحتملة المأخوذة من توزيع الاحتمال الموحد. 

لماذا هذا صحيح؟ يعود هذا إلى مفهوم التفكير الاستقرائي. تضع كل خوارزمية للتعلم الآلي 
افتراضات سابقة حول BAI‏ بين السمات والمتغيرات المستهدفة لمشكلة تعلم الآلة. غالبا ما 
تسمى هذه الافتراضات الافتراضات السابقة”. يعتمد أداء خوارزمية التعلم ASV‏ أي مشكلة على 
مدى توافق افتراضات الخوارزمية مع حقيقة المشكلة. قد تعمل الخوارزمية جيدًا لحل مشكلة 
ماء ولكن لا يوجد سبب للاعتقاد بأنها تعمل Le‏ على مشكلة مختلفة حيث قد لا تعمل 
الفرضيات. هذا المفهوم هوني الأساس مفارقة البجعة السوداءفي التعلم الآلي. 

الافتراضات المقيدة التي تقوم بها عند اختيار أي خوارزمية هي نفس السعر الذي تدفعه مقابل 
الغداء. هذه الافتراضات تجعل الخوارزمية الخاصة بك أفضل بشكل طبيعيني بعض القضايا 
بينمافي نفس الوقت بشكل طبيعي أسوأفي البعض الآخر. 

كل هذه النظريات رائعة» ولكن ماذا يعني NFL‏ بالنسبة لك JUS‏ بيانات أو مهندس تعلم آلي 
أو مجرد مبتدئ؟ وهذا يعني أن جميع الخوارزميات متساوية؟ بالطبع GUY‏ الممارسة العملية لا 
يتم إنشاء كل الخوارزميات بنفس الطريقة. هذا OY‏ المجموعة الكاملة من مشاكل التعلم JV‏ 
هي مفهوم نظريفي حالة NFL‏ وهي أكبر بكثير من مجموعة مشاكل التعلم الآلي العملية التي 
سنحاول حلها بالفعل. قد تؤدي بعض الخوارزميات عادة أداءً أفضل في أنواع معينة من المشكلات 
أكثر من غيرهاء ولكن لكل خوارزمية مزايا وعيوب بسبب الافتراضات السابقة التي قدمتها تلك 
الخوارزمية. ربما تكون خوارزمية مثل XGBoost‏ قد فازت بالمتات من سباقات ‘Kaggle‏ 
ولكن بسبب الافتراضات المحدودةني النماذج القائمة على الأشجارء فقد فشلت فشلاً ذريعافي 
التنبؤ بالمهام. قد تؤدي الشبكات العصبية أداءً جيداني المهام المعقدة مثل تصنيف الصور 
والتعرف على الكلام» ولكن T]‏ لم يتم تدريبها بشكل صحيح» فقد تعاني من الضبط الزائد بسبب 
تعقيدها. 

من الناحية العملية . هذا ما يعنيه NFL‏ 


1 The Lack of A Priori Distinctions Between Learning Algorithms 
2 priori assumptions 


b Overfitting 
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e‏ لا توجد خوارزمية واحدة تحل جميع مشكلات التعلم الآلي أفضل من أي خوارزمية 
أخرى. 

٠‏ قبل اختيار خوارزمية لاستخدامها . تأكد من فهمك الكامل لمشكلة التعلم الآلي 
وبياناتها. 

e‏ تتميز النماذج الأبسط . مثل الانحدار اللوجستي e‏ بانحياز أعلى وتميل إلى الضبط 
الناقص « بينما تتمتع النماذج الأكثر تعقيد c‏ مثل الشبكات العصبية » بمزيد من التباين 
وتميل إلى الضبط الزائد. 

e‏ أفضل النماذج لمشكلة معينة تقع في مكان ما بين حافتي التباين- المتحيز. 

e‏ للعثور على نموذج جيد لمشكلة ما . قد تضطر إلى تجربة نماذج مختلفة ومقارنتها 
باستخدام استراتيجية تحقق قوية. 


التنبؤ مقابل الاستدلال 


بشكل cele‏ الهدف من أي عملية تعلم خاضعة للإشراف هو توقع متغير كمي أو نوعي y‏ بناءً 
على مجموعة من 7 المتنبئين X1, Xa ..., Xp‏ بالإضافة إلى ذلك نفترض أن هناك علاقة بين 
y‏ و ox‏ أبسط الحالات» يمكن التعبير عن هذه العلاقة على النحو التالي: 


y = f(xy) +e 


حيث f‏ دالة غير معروفة ولكن مع الثوابت X4, X2 ..., Xp‏ و € هو تعبير خطأ يمثل جميع 
المتغيرات التي تتعلق ب y‏ ولكنها غير مضمنةفي النموذج.في الإحصاء نفترض أن تعبير الخطأ 
مستقل عن Xp‏ وأن متوسطه هو صفر. بمعنى fic ST‏ هي دالة (غير معروفة) ترسم العلاقة بين 
متغير الاستجابة والمتنبى. نظرًا OY‏ الدالة غير معروفة» يتعين علينا تقدير هذه الدالة بناءً على 
نقاط البيانات المرصودة.في التحليل الإحصائي. هناك مجالان رئيسيان للاهتمام لتقدير دالة f‏ 
يهتم التعلم الآلي بشكل أساسي بالتنبؤ. على وجه الخصوص. فهي مهتمة بتحديد مجموعة 
المتنبئين التى توفر أكثر التنبؤات دقة لمخرجات y‏ وهى أقل اهتمامًا بطبيعة العلاقة. بمعنى 5( 
طالما أن قوة التوقع عالية ومتسقةء فليس من الضروري وجود علاقة سببية بين متنبئ Xp‏ ومتغير 
الاستجابة /[. نتيجة WH‏ لا نحتاج إلى وضع افتراضات حول البيانات والشكل الدقيق ل f‏ 
نظرًا oY‏ بيان الخطأ هو صفرفي المتوسط . يمكننا التنبؤ ب ty y‏ على هذه المجموعة من 
المتنبئين. 


$ = f(x) 


حيث af‏ دالة تقدير f‏ و 7 هي القيم المتوقعة ل oy‏ التعلم الآلي» يكون الهدف dole‏ هو 
تقدير الدالة c f‏ مما يقلل خطأ التنبؤ. 


استخدم النموذج للتنبؤبنقاط البيانات الجديدة 


استخد ام النموذج للتعرف على عملي توليد البيانات 
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التفسير هو ضرورة للاستنتاج 


بشكل أساسي» يتم تقليل الاختلاف بين النماذج المناسبة للاستنتاج والنماذج غير المناسبة إلى 
قابلية تفسير النموذج. ما المقصود بقابلية تفسير النموذج؟ يمكن تفسيره على أنه نموذج يمكن 
للإنسان من JAS‏ إعادة النظرفي LAS‏ إنشاء تقديراته. ضعفي اعتبارك الطرق التالية للتنبؤ: 


٠‏ قابل للتفسير: النماذج الخطية المعممة (مثل الانحدار الخطي والانحدار اللوجستي) 
وتحليل الفصل الخطي' وآلات متجه الدعم الخطي وأشجار القرار. 

e‏ غير قابل للتفسير (أقل قابلية للتفسير): الشبكات العصبية وآلات الدعم غير الخطية 
والغابات العشوائية. 


فقط مجموعة فرعية من الطرق القابلة للتفسير Side‏ الاستنتاج. على سبيل المثال» يمكن 
تفسير آلات متجه الدعم الخطي لأنها توفر معاملًا لكل خاصية بحيث يمكن تفسير تأثير 
الخصائص الفردية على التنبؤ. ومع ذلك لا تسمح آلات المتجهات الداعمة بتقدير حالات عدم 
اليقين المتعلقة بمعاملات النموذج (مثل التباين) ولا يمكن الحصول على مقياس ضمني 
لموثوقية النموذج. لاحظ أن آلات المتجه الداعم قادرة على توليد احتمالات الإخراج ولكن هذه 
الاحتمالات ليست سوى تحويل لقيم القرار ولا تستند إلى موثوقية تقدير المعاملات. هذا هو 
السببفي أن حتى الطرق القابلة للتفسير مثل آلات متجهات الدعم الخطي وأشجار القرار غير 
كافية للاستنتاج.في المقابل» Gas‏ اعتبارك الانحدار الخطيء والذي يفترض أن البيانات تتبع 
توزيع غاوسي. تحدد هذه النماذج الخطأ المعياري لتقدير معاملات وفترات موثوقية المخرجات. 
نظرًا OY‏ الانحدار الخطي يسمح UJ‏ بفهم الطبيعة المحتملة لعملية إنتاج البيانات» فهي طريقة 
جيدة للاستنتاج. تحظى الطرق البايزية للاستدلال بشعبية كبيرة UM‏ يمكن تكييف هذه النماذج 
لتجمع بين افتراضات مختلفة حول عملية إنتاج البيانات. 
فقط لأن لديك نموذجًا مفيدًا للاستدلال لا يعني أنك تفعل ذلك حمًا. ما يهم ه وكيفية 
استخدام النموذج. على سييل المثال» على الرغم من أن النماذج الخطية المعممة مناسية 
للاستدلالء إلا أنه لا يمكن استخدامها إلا للأغراض التنبؤية. ضفي اعتبارك الأمثلة التالية التي 
تجعل التمييز بين dl‏ والاستدلا ل AST‏ وضوحًا: 
" التنبؤ: تريد التنبؤ بمستويات الأوزون المستقبلية باستخدام البيانات السابقة. نظرًا لأنك تعتقد 
أن هناك علاقة خطية بين مستوى الأوزون وقياس درجة الحرارة والإشعاع الشمسي والرياح» 
فإنك تضع عدة نماذج خطية على بيانات التدريب وتختار النموذج الذي يقلل الخطأفي 
المجموعة التجريبية. MST‏ يمكنك استخدام النموذج المحدد للتنبؤ بمستويات الأوزون. 


1 Linear Discriminant Analysis (LDA) 
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لاحظ أنه طالما أن النموذج يقلل من خطأ الاختبار. فأنت لا تهتم على الإطلاق بافتراض نموذج 
كاوسيان أو المعلومات الإضافية الواردةفي تقدير النموذج. 
" الاستدلال: تريد أن تفهم كيف يتأثر سطح الأوزون بدرجة الحرارة والإشعاع الشمسي والرياح. 
يمكنك استخدام نموذج الانحدار الخطي لأنك تفترض أن البيانات يتم توزيعها بشكل طبيعي. 
يتم استخدام مجموعة البيانات الكاملة للنمذجة من أجل الحصول على المعلومات وبما أن 
دقة التنبؤ ليست مهمة بالنسبة لك. Fly‏ على النموذج المناسب» يمكنك تفسير دور الخصائص 
على مستوى الأوزون المُقاس. على سبيل Sell‏ النظرفي تقديرات نطاقات الثقة (فترات 
الثقة). 
ajjaj‏ البيانات 
عند تنفيذ نماذج التعلم الآلي للأغراض التنبؤية. من المهم تقسيم البيانات بشكل صحيح لتقييم 
أداء النماذج بشكل موضوعي ولتجنب أوجه القصورفي البيانات.في الحالات التي توجد Led‏ 
بيانات كافية» يمكن تقسيم البيانات بشكل عشوائي إلى ثلاث مجموعات: مجموعة التدريب 
ومجموعة التحقق ومجموعة الاختبار. تستخدم مجموعة التدريب» كما يوحي اسمهاء لتدريب 
النماذج وتناسبها. تستخدم مجموعة التحقق من الصحة للحصول على قيم المعاملات الفائقة 
المثلى (تحسين المعاملات الفائقة) وللمساعدةفي تحديد النموذج» ويتم استخدام مجموعة 
الاختبار لتقييم أداء النموذج النهائيني العينات التي تظهرفي عملية التعلم. لا توجد قواعد واضحة 
حول حجم مجموعات مختلفة من مجموعات البيانات» OM‏ هذا يعتمد إلى حد كبير على توافر 
البيانات. ومع ذلك Bole‏ ما تكون مجموعة التدريب هي الجزء الأكبر من البيانات» حيث يجب 
تدريب نماذج التعلم الآلي على كميات كبيرة من البيانات لتكون فعالة. 


اختيار gògail‏ وتقييمه 


mm 


يدور التعلم الآلي حول مفهوم الخوارزميات أو النماذج التي تقوم بالفعل بتقديرات إحصائية. 
ومع ذلك ٠‏ فإ نكل نموذج له العديد من القيود اعتمادًا على توزيع البيانات. لا يمكن أن يكون 
أي منها دقيقًا Glas‏ لأنها مجرد تقديرات. تعرف هذه القيود عمومًا باسم التحيز والتباين. يتم 
تبسيط نموذج التحيز العالي من خلال عدم الانتباه إلى نقاط التدريب (على سبيل المثال » في 
الانحدار الخطي . بغض النظر عن توزيع البيانات » يعتبر النموذج دائمًا Bre‏ خطية). أيضًا « 
يحد نموذج التباين العالي نفسه بالبيانات التدريبية من خلال عدم تعميم نقاط الاختبار التي لم 
يرها من قبل. 

المتعلمون الجيدون الذين نبحث عنهم هم الذين يؤدون أداءً جيدًا في الأمثلة الجديدة. لذلك 
يجب أن يتعلم المتعلمون الجيدون القواعد العامة من الأمثلة التدريبية بحيث تنطبق القواعد 
المستفادة على جميع الحالات المحتملة (غير المرئية). ومع ذلك e‏ عندما يتعلم المتعلم الأمثلة 
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التدريبية "جيدًا جد" » فمن المحتمل أن يتم اعتبار بعض ميزات العينة التدريبية كميزات عامة 
ستتمتع بها جميع الحالات المحتملة € مما يؤدي إلى انخفاض الأداء العام. في التعلم الآلي e‏ 
تعرف هذه الظاهرة بالضبط الزائد وعكسه الضبط الناقص . أي يفشل المتعلم في تعلم السمات 
العامة للأمثلة التدريبية. 


الضبط الزائد 
Overfitting‏ 


يشيرالضبط الزائد إلى الموقف الذى يتتبع فيه النموذج الإحصائى بد قه adle‏ الفوضاء أوالأخطاءبدلا من اتباع 


إشارة فى البيانات . 


إذا كان نموذج التعلم الآلى يعمل بشكل aJiél ain‏ فى بيانات التدريب Una)‏ تدريب 
منخفض] ولكنه يعمل بشكل ضعيف عند اختبار بيانات 03722 Ln)‏ اختبار مرتفع) . 
Iams‏ عادة ما يكون علامة على أن النموذج -Overfitting‏ هذا وضع سىء للغاية . لأنه يعنى 
أن النموذج متسق للغاية مع بيانات التدريب وغير قادر على تعميم علاقات السمات على 
البيانات الجديدة. هذا لأن النموذج يتذكر البيانات (UI‏ شاهدها ولا يمكنه تعميمها على 
العينات غير المرئية. 

فى التعلم الخاضع للإشراف . يحدث الضبط afljJl‏ عندما يلتقط نموذجنا الضوضاء Ulin‏ 
إلى جنب مع hoil‏ الأساسى فى البيانات. على عكس الضبط الزائد . فى التعلم الخاضع 
للإشراف . يحدث الضبط الناقص عندما يفشل النموذج فى الحصول على hoil‏ الأساسى 
للبيانات. 


من بين الأسباب العديدة المحتملة » تعد القدرة على التعلم بقوة مفرطة USUS Cow‏ للضبط 
الزائد « حيث يمكن لمثل هؤلاء المتعلمين تعلم السمات غير العامة للأمثلة التدريبية. في المقابلء 
عادة ما يكون الضبط الناقص بسبب ضعف القدرة على التعلم. في الممارسة العملية » من السهل 
نسبيًا التغلب على الضبط الزائد. على سبيل المثال » يمكننا القيام بالمزيد من التفرع في تعلم 
أشجار القرار أو إضافة المزيد من الدورات التدريبية في تعلم الشبكات العصبية. ومع ذلك . كما 
سنرى لاحقا » يمثل الضبط الزائد مشكلة كبيرة في التعلم e SN‏ وبالتالي e‏ تم تنفيذ طرق مختلفة 
لتقليلها. ومع ذلك . يجب أن نعلم أن الضبط الزائد أمر لا مفر منه وأن كل ما يمكننا فعله هو 
تقليله وليس القضاء عليه GLS‏ يمكن تبرير هذه الحجة بإيجاز على النحو التالي: 
Ue‏ ما تكون مشكلات التعلم NP-hard JV‏ أو أكثر صعوبة » ولكن يجب أن تكمل 
خوارزميات التعلم العملية التعلم في وقت متعدد الحدود. لذلك » إذاكان من الممكن الضبط 
الزائد » OB‏ تقلي ل الخطأ التجريبي يؤدي إلى الح ل الأمثل » وبالتالي لدينا دليل بناء على -P=NP‏ 
بعبارة أخرى » طالما أننا نؤمن ب PENP‏ » فإن الضبط الزائد أم Y‏ مه ر منه. 
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من الناحية العملية . be OE‏ يكون هناك العديد من خوارزميات التعلم المرشحة . وحتى 
خوارزمية تعلم واحدة قد تنتج نماذج مختلفة Gi g‏ لمعايير مختلفة. إذن ما هي خوارزمية التعلم 
التى يجب أن نختارها وما هى إعدادات المعاملات التى يجب استخدامها؟ هذا يسمى اختيار 
النموذج. الحل المثالي هو تقييم جميع النماذج المرشحة واختيار النموذج الأقل خطأ في التعميم. 
ومع ذلك . لا يمكننا الحصول على خطأ التعميم مباشرة » بينما يعاني الخطأ التجريبي من الضبط 
الزائد. إذن »كيف يمكننا تقييم واختيار النماذج عمليًا؟ في ما يلي e‏ بعد مراجعة موجزة لتوازن 
te ee . ee og o‏ 
توازن التحيز والتباين 
الغرض الرئيسي من نموذج التعلم الآلي هو التعلم من البيانات التي تم تغذيتها وعمل تنبؤات بناءً 
على النمط الذي لوحظ أثناء عملية التعلم. ومع ذلك › هذه ليست نهاية مهمتنا. يتعين علينا إجراء 
تحسينات باستمرار على النماذج SU e‏ على نوع النتائج التي تنتجها. نحدد أداء النموذج باستخدام 
معايير مثل الدقة ومتوسط الخطأ التربيعى ودرجة ۴1 وما إلى ذلك « ونحاول تحسين هذه 
المعايير. DE‏ ما يصبح هذا مشكلة عندما نحتاج إلى الحفاظ على مرونة النموذج. OY‏ أداء 
نموذج التعلم SV‏ يتم تقييمه Fly‏ على درجة Bo‏ توقعه ودرجة تعميمه على مجموعة بيانات 
مستقلة أخرى لم يراها في عملية التعلم. 

يعتزم نموذج التعلم الآلي الخاضع للإشراف تدريب نفسه على متغيرات الإدخال X‏ بحيث 
تكون القيم المتوقعة Y‏ أقرب ما يمكن إلى القيم الفعلية. هذا هو الفرق بين القيم الفعلية وقيم 
الخطأ المتوقعة ويستخدم لتقييم النموذج. بشكل عام . يمكن تقسيم خطأ أي خوارزمية للتعلم 
الآلي إلى فئتين: 

1. تقليل الأخطاء. 
الأخطاء التي لا رجعة فيها هي أخطاء لا يمكن تقليلها حتى مع أي نموذج آخر للتعلم الآلي. على 
سبيل المثال» الضجيج خطأ لا رجوع فيه ولا يمكننا القضاء عليه. من ناحية أخرى» يعد التحيز 
والتباين أخطاء قابلة للقياس يمكننا محاولة تقليلها قدر الإمكان. بسبب هذا التباين-التحيزء 
يؤدي نموذج التعلم الآلي بالبيانات المقدمة إلى الضبط الزائد والضبط الناقص. يتطلب الحد من 
الأخطاء اختيار النماذج التي تتمتع بالتعقيد والمرونة المناسبين. يحتاج علماء البيانات إلى فهم 
الفرق بين التحيز والتباين بشكل كامل لتقليل الأخطاء وبناء نماذج دقيقة. 


1 Bias-Variance Trade-Off 
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التحيز هو عدم قدرة نموذج التعلم SY‏ على الحصول على علاقة حقيقية بين متغيرات 
البيانات. هذا بسبب الافتراضات الخاطئة داخل خوارزمية التعلم. على سبيل المثالءفي الانحدار 
الخطي» يفترض أن تكون العلاقة بين X‏ والمتغير zs ALS Y‏ الواقع قد لا تكون هذه العلاقة 
خطية تمامًا.في المقابل» على عكس Grell‏ يكون التباين عندما يأخذ النموذجفي الاعتبار تقلبات 
البيانات» بمعنى آخر. الضوضاء. لذلك. عندما يحتوي نموذجنا على تباين كبيرء أي أن النموذج 
يتعلم الكثير من بيانات التدريب (التباين ليس سوى مفهوم ضبط زائد للنموذجفي مجموعة بيانات 
معينة). بحيثفي مواجهة البيانات الجديدة (التجارب))ء فهو غير قادر على التنبؤ بدقة. 


التحيزهو الفرق بين متوسط توقع نموذ جنا والقيمهَ الصحيحة التى نحاول توقعها. 
لا يولى النموذج jail gà‏ العالى uá LoLoial‏ ببيانات التدريب ويجعل النموذج بسيطًا 
للغاية ويؤدى Cola‏ إلى خطأ كبير فى بيانات التدريب والاختبار. 


التباين هو تغيرفى توقع agaill‏ ج لنقطه بيانات da il iac o‏ توضح لناتشتت البيانات . 


يولى نموذج التباين العالى الكثير من الاهتمام GUL‏ التدريب Ug‏ يعمم على البيانات 
GUI‏ لم yo laly‏ قبل. نتيجة لذلك . تعمل هذه النماذج جيدًا على بيانات التدريب . ولكن 
لديها معدل خطأ مرتفع فى البيانات التجريبية. 

يوضح التباين G20‏ تغير تقدير الدالة الموضوعية إذا تم استخدام بيانات تدريب مختلفة. 
بمعنى آخر . يعبر التباين عن مدى اختلاف متغير عشوائى عن قيمته المتوقعة. يمكن 
أن يؤدى التباين إلى الضبط الزائد. حيث ala jj‏ التقلبات الصغيرة فى مجموعة التدريب. قد 
يعكس النموذج ذو التباين العالى ضوضاء عشوائية فى مجموعة بيانات التدريب Yay‏ من 
الدالة الموضوعية. يؤدى النموذج gà‏ التباين العالى إلى تغييرات كبيرة فى تنبؤات Ul‏ 
الهدف. 


عند ely‏ خوارزمية تعلم آلي خاضعة للإشراف فإن الهدف هو تحقيق انحياز وتباين 
منخفضين للحصول على أكثر التنبؤات دقة. قد يمثل نموذج التباين العالي مجموعة البيانات 
بدقة » ولكن يمكن أن يؤدي إلى الضبط الزائد. في المقابل » قد لا يكون نموذج التحيز العالي 
Cats‏ لبيانات التدريب. يعتمد تحدي التوازن على نوع النموذج المعني. تُظهر خوارزمية تعلم 
الآلة الخطية Glos!‏ مرتفعًا ولكن Gls‏ منخفضا. من ناحية أخرى » ستظهر الخوارزمية غير 
الخطية Glos!‏ منخفضًا ولكن تبايتا كبيرًا. يؤدي استخدام نموذج خطي مع مجموعة بيانات غير 
خطية إلى إدخال تحيز في النموذج. هذا النموذج غير مناسب لدوال الهدف مقارنة بمجموعة 
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بيانات التدريب. العكس صحيح Ca‏ إذاكنت تستخدم نموذجًا غير خطي على مجموعة بيانات 
خطية » فسيكون النموذج غير الخطي Gioia‏ جد مع الدالة الهدف. 

لمواجهة تحديات التوازن هذه . يجب على عالم البيانات تطوير خوارزمية تعلم مرنة بما يكفي 
للتكيف بشكل صحيح مع البيانات. ومع ذلك . هناك Gl‏ توتر بين التحيز والتباين. في الواقع» 
من الصعب إنشاء نموذج يحتوي على كل من التحيز والتباين المنخفض (لا مفر من العلاقة بين 
التحيز والتباين في التعلم الآلي): 

زيادة التحيز يقلل التباين. 

زيادة التباين يقلل التحيز. 
يعد توازن التحيز ‏ التباين مشكلة خطيرة في التعلم الآلي. هذا هو الموقف الذي لا يمكنك فيه 
الحصول على كل من التحيز المنخفض والتباين المنخفض. في الواقع c‏ لا يمكننا حساب التحيز 
والتباين الفعليين لأننا لا نعرف دالة الهدف الرئيسية الفعلية. ومع ذلك . كإطار عمل » يوفر التحيز 
والتباين أدوات لفهم سلوك خوارزميات التعلم الآلي في تتبع الأداء التنبئي » ويجب تعليمك 
نموذجًا دقيقًا بدرجة كافية وقابل للتعميم على الأنظمة الحالية في مجموعة مختلفة من البيانات. 
يحصل على نقاط من مصدر واحد . ولديه توازن مع التحيز والتباين الأمثل. 


.aalg La فى خوارزمية التعلم . إذا حاولت تقليل‎ AI hal والتباين خطأان فى‎ jail 


توضح الصورة أدناه تباين- التحيز بشكل أفضل. مركز النتيجة هو النموذج الذي نريد تحقيقه 
والذي يتنبأ بجميع القيم بشكل صحيح. عندما نبتعد عن المركز » يبدأ نموذجنا في عمل تنبؤات 
خاطتة أكثر فأكثر. يتنباً النموذج ذو التحيز المنخفض والتباين العالي بالنقاط الموجودة بشكل 
عام حول المركز . ولكنها متباعدة جدا. النموذج ذو التحيز العالي والتباين المنخفض بعيد عن 
المركز » ولكن نظرًا لأن التباين منخفض » فإن النقاط المتوقعة تكون أقرب إلى بعضها البعض. 
بمعنى آخرء إذا زاد التباين « تكون البيانات أكثر انتشارًا e‏ مما يؤدي إلى دقة أقل LS)‏ هو موضح 
في الدائرة اليمنى العلوية في الصورة). على العكس من US‏ إذا زاد التحيز e‏ يزداد الخطأ 
المحسوب (كما هو موضح في الدائرة اليسرى السفلية في الصورة). 
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تباين عالي oe‏ 


(6 
(96 


عندما تحتوي خوارزمية التعلم على مشكلة تحيز عالية » فإن العمل على تقليل التحيز يؤدي 


He ied 


إلى زيادة التباين ويخلق مشكلة الضبط الزائدء وعندما تعاني خوارزمية التعلم من مشكلة تباين 


عالية » فإن العمل على تقليل التباين يؤدي إلى زيادة التحيز وزيادة المشكلة تخلق الضبط الناقص. 
وهنا يأتي دور مصطلح "التوازن" oY e‏ تقليل التحيز وحده لا يؤدي إلى تحسين النموذج . 
والعكس صحيح. "النقطة المثلى" هي وضع نقاط البيانات في مكان يوجد فيه تحيز أمثل وتباين 


أمثل. بشكل أساسي » ابحث عن نمط من خلال عدم استخدام أي من عناصر الأطراف التي تغير 


الدقة. OE‏ ما يكون تخطيط واختيار هذه النقاط هو التحدي الأكبر الذي يواجهه علماء البيانات 
والمحللون. ومع ذلك . هناك طرق لاختبار ملاءمة النموذج. بعض الحلول المقدمة للتعامل مع 
هذه الظاهرة هي: 
* بناء نموذج أكثر تعقيد: الحل الأول والأسهل لمشكلة الضبط الناقص هو تعليم نموذج 
أكثر تعقيدا لحل المشكلة . وإدخال المزيد من البيانات للنموذج الذي يعاني من الضبط 
الناقص. 
eae UMS edi .‏ ري 


1 Gradient Noise 


* انظر هذا المقال: 


Adding Gradient Noise Improves Learning for Very Deep Networks: https://arxiv.org/abs/1511.06807 
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" التنظيم: طريقة شائعة للحد من ظاهرة الضبط الزائد. تتضمن هذه التقنية » التي تستخدم 
لحل مشكلة التباين SLI!‏ الضبط الدقيق للمعاملات والأوزان لتحقيق دقة أعلى لكل 


" التحيز هو افتراض مبسط يقوم به النموذج (لأنه يتجاهل البيانات) لتسهيل تقريب دالة 
الهدف. 

" يتسبب النموذج الذي به خطأ تباين كبير في الضبط الزائد ويتعلم منه الكثير. 

cus ds) C‏ تستخدم نموذجًا بسيطًا للتعلم JW‏ » فسيكون للنموذج انحياز كبير وتباين 
منخفض (الضبط الناقص). 

" إذاكنت تستخدم نموذجًا متطورًا للتعلم الآلي » فسيكون له تباين كبير وانحياز منخفض 
(الضبط الزائد). 

" تحتاج إلى إيجاد توازن جيد بين التحيز والتباين في النموذج الذي تستخدمه. هذا 
التوازن هو ما يُعرف باسم توازن التحيز التباين. 


طرق التقييم 


بشكل عام » يمكننا تقييم خطأ التعميم من خلال التجارب على بيانات الاختبار. للقيام بذلك « 
نستخدم مجموعة اختبار لتقدير قدرة المتعلم على تصنيف عينات جديدة » ونستخدم خطأ 
الاختبار كتقريب لخطأ التعميم. هنا . نأخذ في الاعتبار Las‏ التعميم فقط . ولكن في تطبيقات 
العالم الواقعي . غالبا ما نفكر في المزيد من العوامل مثل التكلفة الحسابية وتكلفة الذاكرة وما 
إلى ذلك. عادة e‏ نفترض أن عينات الاختبار مستقلة. وتجدر الإشارة إلى أن مجموعة الاختبار 
ومجموعة التدريب يجب أن تكون محددة بقدر الإمكان » أي يجب ألا تظهر عينات الاختبار في 
مجموعة التدريب أو مُستخدم بأي شكل من الأشكال في عملية التدريب. 

لماذا لا تظهر عينات الاختبار في البرنامج التدريبي؟ لفهم هذا e‏ دعنا نفكر في السيناريو التالي. 
لنفترض أننا نستخدم مجموعة من عشرة أسئلة لكل من الممارسة والامتحان . Je‏ يعكس 
الاختبار نتائج تعلم الطلاب؟ الجواب "لا". لأن بعض الطلاب يمكنهم الحصول على درجات 
جيدة حتى لو تمكنوا من حل هذه الأسئلة العشرة فقط. وبالمثل , فإن القدرة القابلة للتعميم التي 
نرغب في تصميمها هي ما نريد من الطلاب دراسته وإتقانه. وعليه تكون عينات التدريب مع 
التمارين والعينات التجريبية مطابقة للاختبار. ومن ثم € يمكن أن يكون التقدير متفائلاً للغاية I|‏ 
كانت عينات الاختبار قد تم تدريبها بالفعل في عملية التدريب. 
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ومع ذلك © بالنظر إلى مجموعة واحدة فقط من البيانات D=‏ 
sx 1), )362,172(, ... Xm Ym)]‏ العينات . كيف يمكننا القيام بكل من التدريب 
والاختبار؟ الإجابة هى إنشاء مجموعة تدريب 5 ومجموعة T‏ تجريبية من مجموعة بيانات .D‏ 
سوف نصف بعض الأساليب الشائعة المستخدمة فى هذا الصدد أدناه. 


طريقة الصيانة ' 


تدريب 5 والأخرى كمجموعة تجريبية T‏ حيث: 


SAT=Ø;D=SUT 


نقوم بتدريب نموذج على مجموعة التدريب S‏ ثم نحسب خطأ الاختبار على المجموعة التجريبية 
T‏ كتقدير عام للخطأ. على سبيل المثال » بالنظر إلى مشكلة التصنيف الثنائي . افترض أن D‏ هي 
مجموعة بيانات تحتوي على 1000 عينة « والتي نقسمها إلى مجموعة تدريبية S‏ بها 700 عينة 
ومجموعة تجريبية T‏ مع 300 عينة. بعد التدريب على S‏ افترض أن النموذج صنف 90 عينة 
بشكل غير صحيح في T‏ . لذلك لدينا معدل خطأ 96100-9630 x‏ )300/90( وبالتالي oj‏ 
الدقة 1-9630-9670. 

تجدر الإشارة إلى أن التقسيم يجب أن يحافظ على توزيع البيانات الأصلي لمنع التحيز 
الإضافي. على سبيل المثال » عند التفكير في مشكلة التصنيف . يجب أن نحاول الحفاظ على 
نسبة الفئة في coal‏ الفرعية المختلفة. تسمى طرق أخذ العينات التي تحافظ على نسب الفئة 
بأخذ العينات المصنفةة. على سبيل المثال » لنفترض أن لدينا مجموعة بيانات D‏ تحتوي على 
0 عينة موجبة و 500 عينة سلبية » ونريد تقسيمها إلى مجموعة التدريب 5 مع 70/ من 
العينات والمجموعة التجريبية T‏ مع 30/ من العينات. ومن ثم » OB‏ طريقة أخذ العينات 
المصنفة تضمن أن يحتوي S‏ على 350 عينة إيجابية و 350 عينة سلبية وأن T‏ يحتوي على 150 
Le‏ إيجابية و 150 عينة سلبية. بدون أخذ العينات الفئوية » يمكن أن تؤدي نسب الفئات 
المختلفة في 5 و 1 إلى تقديرات خطأ التحيزة OV‏ توزيعات البيانات تتغير. ومع ذلك e‏ تؤدي 
طرق التصنيف المختلفة إلى مجموعات تدريبية وتجريبية مختلفة e‏ وبالتالي ستؤدي إلى نتائج 


تقييم مختلفة. ومن ثم e‏ ينتج عن اختبار واحد dale‏ تقدير خطأ غير موثوق به. 


1 Hold-out Method 
? Stratified sampling 


3 biased error estimation 
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من الناحية العملية » غالبا ما نجري اختبار صيانة عدة مرات . حيث يتم تقسيم البيانات 
عشوائيًا في كل اختبار ويستخدم متوسط الخطأ كتقدير نهائي. على سبيل المثال » يمكننا تقسيم 
مجموعة البيانات عشوائيًا 100 مرة لإنتاج 100 نتيجة تقييم ثم اعتبار المتوسط بمثابة تقدير 
لخطأ الصيانة. 

تقسم طريقة الصيانة D‏ إلى مجموعة تدريب ومجموعة تجريبية c‏ لكن النموذج الذي نريد 
تقييمه هو النموذج الذي يتم تدريبه على 2. لذلك نحن أمام معضلة. إذا وضعنا معظم الأمثلة 
في مجموعة التدريب «S‏ فإن النموذج المدرب يعد تقديرًا ممتارا للنموذج المدرب على D‏ 
ومع ذلك ٠‏ فإن التقييم أقل موثوقية نظرًا لصغر حجم T‏ من ناحية GST‏ إذا وضعنا المزيد من 
العينات في مجموعة اختبار «T‏ فإن الفرق بين نموذج التدريب الذي يتم تدريبه في S‏ ونموذج 
التدريب الذي يتم تدريبه في D‏ يصبح كبيرًا » أي أن دقة التقييم أقل. لا يوجد حل مثالي لهذه 
المشكلة وغلينا Glow of‏ الترازن..من الممارسات الشائعة استخدام ‏ الى عينة للتدريب والباقي 
للاختبار. 


طريقة الت ee ee‏ المتبادل ' 

يقسم التحقق المتبادل مجموعة بيانات D‏ إلى k‏ مجموعة فرعية من نفس الحجم e‏ أي: 
D = DQ4UD;U---UDy,Din Dj = © (i +j)‏ 

عادة » تحاول كل مجموعة فرعية Dj‏ الحفاظ على توزيع البيانات الأصلي من خلال أخذ العينات 

المصنفة. هناك عدة طرق لمشاركة البيانات للتحقق المتبادل. فى طريقة التحقق من الصحة 

متعددة الأجزاء يتم استخدام المجموعة الفرعية 1-1 كمجموعة تدريب لتعليم نموذج 

والمجموعة الفرعية المتبقية كمجموعة تجريبية لتقييم النموذج. كرر هذه العملية Bye K‏ 

واستخدم كل مجموعة فرعية كمجموعة اختبار مرة واحدة بالضبط. أخيرًا . للحصول على نتيجة 

التقييم » نقوم بمتوسط اختبار K‏ القيمة الأكثر شيوعًا المستخدمة ل K‏ هي 10. تتضمن قيم K‏ 

الشائعة الأخرى 5 5 20. 


فى تقنية التحقق من الصحة متعددة el jalll‏ . يتم وضع كل z ja‏ من البيانات ôaalg 0 yo‏ 
hissy‏ فى مجموعة تجريبية balg 0 jog‏ فى مجموعة التدريب. هذا Hö‏ بشكل كبير 


من التحيز والتباين . لأنه يضمن أن كل مثيل من مجموعة البيانات الأصلية لديه فرصة 
للظهور فى محموعة التدريب والتجريبية. يعد التحقق متعدد الأجزاء أحد أفضل الطرق 
لتقييم zlal‏ النموذج إذا كانت WY‏ بيانات إدخال محدودة. 


1 Cross-Validation 
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Bootstrapping 


ما نريد تقييمه هو النموذج الذي تم تدريبه باستخدام D‏ ومع ذلك » حتى إذا استخدمنا تقنية 
الصيانة أو التحقق المتبادل » فستظل مجموعة التدريب أصغر من D‏ ومن ثم e‏ فإن تقدير التحيز' 
E‏ لا مفر منه بسبب اختلاف الحجم بين مجموعة التدريب و (1. bootstraping‏ هو حل 
يستخدم تقنية أخل عينات .bootstraping‏ بالنظر إلى مجموعة D‏ تحتوي على عينات «m‏ 
يختار التمهيد للمجموعة ([بشكل عشوائي عينة من D‏ وينسخها إلى BD‏ يضعها في D‏ 
بحيث لا يزال أمامها فرصة للاختيار في المرة القادمة.. يؤدي تكرار هذه العملية مع عدد مرات 
إلى ظهور مجموعة بيانات أخذ Bootstrap D' coUe‏ مجموعه تحتوي على عينات M‏ بسبب 
الاستبدالء قد لا تظهر بعض العينات في DBD‏ بينما قد تظهر عينات أخرى أكثر من مرة. 
إذا قمنا بتقدير سريع: فرصة عدم الاختيار في m‏ تساوي ")5 - 1( لذلك لدينا حد: 


l [x 1 
lim (1-—) E ee 


m-oo m 
ومن ثي‎ D هذا يعني أن ما يقرب من 136.8 من العينات الأصلية لا تظهر في مجموعة بيانات‎ 
كمجموعة تجريبية » بحيث يستخدم كل من‎ D\D كمجموعة تدريب و‎ D يمكننا استخدام‎ 
بالإضافة إلى‎ «m عينات التدريب‎ D النموذج المقيّم والنموذج الفعلي الذي نريد تقييمه على‎ 
ذلك » لا يزال لدينا مجموعة منفصلة من الاختبارات تحتوي على حوالي ثلث العينات الأصلية‎ 
التي لم يتم استخدامها للتدريب. تسمى نتيجة التقييم التي تم الحصول عليها من هذه الطريقة‎ 

تقدير خارج الحقيبة. 


angi لا‎ Loaic gi Oyen تكون مجموعة البيانات‎ Loaic la1ào Bootstraping (994) 


طريقة فعالة لتقسيم مجموعات التدريب والمجموعات التجريبية. بالإضافة إلى ذلك . 
يمكن لعملية التمهيد إنشاء مجموعات بيانات متعددة يمكن أن تكون 02100 لطرق 
Jio‏ التعلم الجماعى. ومع ذلك . نظرا لتغير توزيع البيانات الأصلية باستخدام 
yl. Bootstraping‏ التقدير متحيز أيضا. لذلك . عندما يكون لدينا الكثير من البيانات | 
WL‏ ما يتم استخدام تحقق الصيانة والتحقق المتبادل Jà yo Da‏ 


ضبط المعاملات الفائقة والنموذج النهائى 


تحتوي معظم خوارزميات التعلم على معاملات فائقة لضبطها . UU,‏ ما يؤدي تعديل 
المعاملات الفائقة المختلفة إلى نماذج ذات أداء مختلف. لذلك e‏ فإن تقييم النموذج واختياره 


1 estimation bias 


2 out-of-bag estimate 
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لا يتعلق فقط باختيار خوارزميات التعلم . بل يتعلق أيضًا بتعيين المعاملات الفائقة. تسمى عملية 
إيجاد المعاملات الفائقة الصحيحة ضبط المعاملات الفائقة'. تعد المعاملات الفائقة وسيطات 
نموذجية يتم تعيين قيمها قبل بدء عملية التعلم. مفتاح خوارزميات التعلم SW‏ هو تحديد 
المعاملات. بمعنى ST‏ ضبط المعاملات الفائقة هو عملية تحديد التركيبة الصحيحة من 
المعاملات الفائقة التي تسمح للنموذج بزيادة أداء النموذج إلى الحد الأقصى. يعد ضبط التركيبة 
الصحيحة للمعاملات الفائقة الطريقة الوحيدة لاستخراج أقصى أداء من النماذج. 
قد يعتقد القراء أنه لا يوجد فرق جوهري بين إعداد معامل BE‏ واختيار خوارزمية: كل ضبط 
للمعامل الفائق يؤدي إلى نموذج e‏ ونختار النموذج الذي ينتج أفضل النتائج كنموذج نهائي. هذه 
الفكرة صحيحة في الأساس. ومع ذلك . هناك مشكلة ء نظرًا OY‏ المعاملات غالبا ما تكون Ga‏ 
حقيقيةة » فمن المستحيل اختبار جميع إعدادات المعاملات الفائقة. وبالتالي » في الممارسة 
العملية » نحدد Sole‏ نطاقًا وحجم خطوة لكل معامل فائق. على سبيل e JEI‏ النطاق ]0.2 « 0] 
وحجم الخطوة هو 0.05 » مما ينتج عنه خمسة إعدادات للمعاملات الفائق المرشحة فقط. مثل 
هذا الموازنةة بين التكلفة الحسابية والجودة المقدرة يجعل التعلم ممكنًا . على الرغم من أن 
إعداد المعامل الفائق المختار لا يكون عادة هو الأمثل. في الواقع . حتى بعد إجراء مثل هذا 
الحساب. لا يزال ضبط معامل فاتق يمثل تحديًا كبيرا. يمكننا عمل تقدير بسيط. افترض أن 
الخوارزمية تحتوي على ثلاثة معاملات فائقة وكل منها يأخذ في الاعتبار خمس قيم مرشحة 
dbi‏ لذلك يتعين علينا تقييم 125 = 53نموذجًا لكل زوج من مجموعات التدريبية 
والتجريبية. غالبًا ما تحتوي خوارزميات التعلم القوية على عدد كبير جد من المعاملات الفائقة 
لتعديلها c‏ مما يؤدي إلى عبء عمل ثقيل في تحديد المعاملات. 
OL‏ ما تكون جودة ضبط المعاملات الفائقة أمرًا بالغ الأهمية في تطبيقات العالم الحقيقي. 
ومع ذلك e‏ فإن اختيار المجموعة الصحيحة من المعاملات الفائقة ليس بالمهمة السهلة. هناك 
طريقتان رئيسيتان لتعديلهما: 
= الإعداد اليدوي للمعلمات الفائقة: في هذه الطريقة . يتم ضبط واختبار مجموعات 
مختلفة من المعاملات الفائقة يدويًا. هذه عملية BL‏ وقد لا تكون عملية في الحالات 
التي يوجد فيها عدد كبير جد من المعاملات الفائقة للاختبار. بمعنى آخر » في كل مرة 
نقوم فيها باختبار معاملات فائقة مختلفة e‏ يتعين علينا تدريب نموذج على بيانات 
التدريب ٠‏ والتنبؤ ببيانات التحقق من الصحة . ثم حساب معايير التحقق من الصحة. 
هذا يجعل العملية اليدوية غير قابلة للحل مع عدد كبير من المعاملات الفائقة في 


l Hyperparameter Tuning 
? real-valued 


3 trade off 
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النماذج المعقدة مثل التعلم الجماعي أو الشبكات العصبية العميقة التي قد تستغرق 
عدة أيام! 

" الإعداد التلقائي للمعاملات التشعبية: في هذه الطريقة › يتم العثور على المعاملات 
الفائقة المثلى باستخدام خوارزمية تعمل على أتمتة العملية وتحسينها. البحث 
العشوائي . والبحث الشبكي . وتحسين Bayesian‏ هي أمثلة على الضبط التلقائي 
للمعامل التلقائي. 


البحث الشبكى 

في طريقة البحث الشبكي» نقوم بإنشاء شبكة من القيم الممكنة للمعاملات الفائقة. يختبر كل 
المعاملات الفائقة الممكنة ويسجل أداء النموذج. أخيرًاء يقوم بإرجاع أفضل نموذج بأفضل 
معاملات فائقة. نظرًا OY‏ هذه الطريقة تختبر جميع مجموعات المعاملات الفائقةء فإنها تزيد 
من التعقيد الزمني للحسابات. 

البحث العشوائى 

هناك طريقة بسيطة لاستبدال البحث الشبكى عن طريق أخذ عينات عشوائية من مساحة المعامل 
الفائق. بمعنى ST‏ بدلاً من التجارب المنتظمة على مجموعة القيم الكاملة في مساحة المشكلة 
من الأفضل تحديد واختبار القيم العشوائية من مساحة العينة بأكملها. في طريقة البحث 
العشوائي» نقوم بإنشاء شبكة من القيم الممكنة للمعاملات الفائقة. يختبر كل تكرار مجموعة 
عشوائية من المعاملات الفائقة من هذه الشبكة » ويسجل الأداء e‏ ثم يُرجع في النهاية مجموعة 
المعالمات الفائقة التى توفر أفضل أداء. 


Bayesian تحسين‎ 


يعد إعداد وإيجاد المعاملات الفائقة الصحيحة للنموذج مهمة تحسين. بمعنى GST‏ نريد تقليل 
دالة الخطأفي نموذجنا عن طريق تغيير معاملات النموذج الفائقة. يساعدنا تحسين dBayesian‏ 
العثور على الحد الأدنى من النقاطفي أقل عدد من الخطوات. يستخدم تحسين Bayesian‏ أيضًا 
دالة شاملة توجه أخذ العينات إلى المناطق التي يحتمل أن يكون فيها التحسين على أفضل 
الملاحظات الحالية. بشكل cele‏ المفهوم الأساسي لتحسين Bayesian‏ هو: 'إذا بحثنا عشوائيًا 
عن بعض النقاط ووجدنا أن بعض هذه LS‏ واعدة AST‏ من غيرهاء فلماذا لا ننظ رإليها؟ ". 


يتطلب تحسين HAI ale Bayesian‏ أقل لتحقيق المجموعة المرغوبة من قيم 


المعاملات الفائقة . لأنه Jal‏ مناطق مساحة المعامل التى يعتقد أنها لا تساعد على 
الإطلاق. 


كما أن طرق البحث الشبكى والعشوائى غير Úu les‏ لأنهم لا yg JU)‏ المعاملات 
الفائقة التالية للتقييم بنا على النتائج السابقة. شبكة البحث والبحث العشوائى غير 


مدركين LoLoJ‏ للتقييمات السابقة . ونتيجة لذلك . غالبًا Lo‏ يقضون lidg‏ طويلاً فى 
JI LL PM‏ | ات الفائقة m JI"‏ 6 


تقبيم الأداء 
في كل مرة تنشئ فيها نموذجًا للتعلم الآلي » يكون لدى جميع الجماهير » بما في ذلك أصحاب 
المصلحة في الأعمال » سؤال واحد فقط: كيف يعمل النموذج؟ ما هي معايير التقييم الخاصة 
بالنموذج؟ ما هي Bo‏ النموذج؟ بمعنى آخرء لتقييم قابلية تعميم النماذج . لا نحتاج فقط إلى 
طرق تقدير فعالة وكفؤة . بل نحتاج Cad‏ إلى بعض معايير الأداء التي يمكن أن تحدد قابلية 
التعميم. تعكس مقاييس الأداء المختلفة المتطلبات المختلفة للقضايا وتنتج نتائج تقييم مختلفة. 
بمعنى آخر » جودة النموذج هي مفهوم نسبي يعتمد على الخوارزمية والبيانات وكذلك متطلبات 
العمل. 
يساعدك تقييم النموذج المطور على تعديل النموذج. ومن ثم . ستستمر في تطوير وتقييم 
النموذج الخاص بك حتى تصل إلى مستوى كفاءة النموذج الأمثل (لا تعني الكفاءة المثلى 
للنموذج دقة 100 !!). يمكن رؤية العديد من محللي البيانات غير مهتمين بأداء النموذج أو 
معايير تقييم النموذج. يمكنك إنشاء عدد TL‏ من النماذج لمجموعة بيانات معينة » ولكن السؤال 
الرئيسي عن النموذج الذي يجب اختياره. ومعايير التقييم النموذجية هي الإجابة على هذا السؤال. 

في التنبؤ بالمشكلات  ٠.‏ لدينا مجموعة من البيانات  D=‏ 
(Ot Y1) X2 Y2), ... (Kms Ym2)‏ حيث Ym‏ هي التسمية الحقيقية لعينة Xm‏ لتقييم أداء 
المتعلم «f.‏ نقارن توقعه Xm‏ بسمته الحقيقية 7 . 

اعتمادًا على الغرض من عملك ونطاقه . يمكنك اختيار معايير التقييم النموذجية. عندما 
نتحدث عن النماذج التنبؤية » يجب علينا أولاً فهم الأنواع المختلفة للنماذج التنبؤية. بشكل عام 
لدينا نوعان من النماذج تعتمدان على المتغيرات التابعة. إذا كان المتغير التابع مستمرًا o‏ فإننا 
ننشئ نموذجًا للانحدار » وعندما يكون المتغير التابع متقطعاً » يكون لدينا نموذج تصنيف. إذا 
كانت المشكلة تمثل مشكلة انحدار . فإن مقياس الكفاءة الأكثر شيوعًا هو متوسط الخطأ 
التربيعي' (MSE)‏ 


1 m 
EF: D) = — FE) - y)? 


1 Mean Squared Error 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


معدل الخطأ والدقة 

مقاييس الأداء الأكثر شيوعًا فى مشاكل التصنيف . بما فى ذلك التصنيف الثنائى والتصنيف 
المتعدد (متعدد الفتات) . هى معدلات esd)‏ والدقة2. معدل الخطأ هو نسبة العينات المصنفة 
بشكل غير صحيح إلى جميع العينات. من ناحية GAT‏ فإن BU‏ هي نسبة عينات التصنيف 
والنموذج (المصنف) 20 عينة بشكل صحيح « فسيكون معدل الخطأ 0. 20/100-0.2. G5,‏ 
لمجموعة البيانات D‏ . يكون معدل الخطأ على النحو التالى: 


1 m 
E(fi D) =— D (f(D * y) 


1 m 
Accuracy(f; D) = 9 If (i) = vi) 


=1-E(f;D) 
و 0 على خلاف ذلك.‎ true هي دالة المؤشرة التي ترجع 1 من أجل‎ IC) حيث‎ 
F1 الدقة والاستدعاء و‎ 


عندما يتعين علينا تقييم نموذج ماء فإننا غالبًا ما نستخدم معدلات الخطأ والدقة » ولكن ما نركز 
عليه بشكل أساسي هو مدى موثوقية نموذجنا € وكيف يعمل على مجموعة بيانات مختلفة (قابلية 
التعميم) ومدى مرونته. لا شك أن الدقة معيار مهم للغاية يجب أخذه فى الاعتبار « ولكنها لا 
تقدم Glo‏ صورة كاملة لأداء النموذج. 

عندما نقول أن النموذج موثوق OB C‏ نعني أن النموذج قد حصل على البيانات بشكل صحيح 
ووفقًا لطلب التعلم. لذلك e‏ فإن التنبؤات التي قدمتها قريبة من القيم الفعلية. في بعض «edi‏ 
قد يؤدي النموذج إلى دقة أفضل ٠‏ لكنه قد لا يفهم البيانات بشكل صحيح وبالتالي يؤدي بشكل 


1 Error Rate 
2 Accuracy 


3 indicator function 
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سيء عندما تكون البيانات مختلفة. هذا يعني أن النموذج ليس موثوقًا وقويًا بدرجة كافية وبالتالي 
يحد من استخدامه. 

على سبيل المثال » لدينا 980 تفاحة و 20 برتقالة ولدينا نموذج يصنف كل فاكهة على أنها 
تفاحة. لذلك Bo.‏ 980/1000-98%. وبناءً على معيار الدقة لدينا نموذج دقيق للغاية. ومع 
ذلك e‏ إذا استخدمنا هذا النموذج للتنبؤ بالثمار المستقبلية > فسوف نفشل. oM‏ هذا النموذج 
يمكن أن يتنبأ بفئة واحدة فقط. 


الحصول على صورة كاملة للنموذج . على سبيل المثال كيف يدرك البيانات وكيف يمكن 
التنبؤ بها . يساهم في فهمنا المتعمق للنموذج ويساعد على تحسينه. لذا » افترض أن لديك 
نموذجًا يحقق دقة 90/ » فكيف يمكنك تحسينه؟ لتصحيح الخطأ . يجب أن ندركه Al‏ 
وبالمثل . لتحسين النموذج » نحتاج إلى النظر في LAS‏ عمل النموذج على مستوى أعمق. ومع 
ذلك . لا يتم تحقيق ذلك بمجرد النظر إلى معيار الدقة » وبالتالي يتم النظر في معايير أخرى. 
ples‏ مثل الدقة ,والاستدعاء و ۴1 هى أمثلة على هذه المعايير. 
eed‏ للقن انرق اسيل القند pages all fe‏ الله نقلي 3 
التنبؤ مع العناوين e‏ الموجب الحقيقي . الموجب الخاطئ » المنفي الحقيقي والمنفي PEI‏ 
والتي يمكن تمثيلها في مصفوفة الارتباك (الجدول 1-5). أين: 
c‏ موجب حقيقي (TP)‏ على سبيل المثال » عندما كانت القيمة الفعلية للفئة "نعم" 
؛ توقع النموذج Lal‏ 'نعم' (أي توقع صحيح). 
c‏ موجب خاطئع (EP‏ على سبيل المثال . عندما كانت القيمة الفعلية للفئة "لا" لكن 
النموذج توقع "نعم" (أي توقع خاطى). 
e‏ منفى خاطئ (EN‏ على سبيل المثال . عندما تكون القيمة الفعلية للفئة "Y es'‏ , 
لكن النموذج توقع "لا" Gl)‏ توقع خاطى). 
e‏ منفى حقيقي CIN)‏ على سبيل QUAM‏ . عندما تكون القيمة الفعلية للفئة "ل" 
وتوقع النموذج "لا" (أي Ue‏ التوقع صحيحًا). 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والآدوات 


جدول 1-5 مصفوفة الارتباك 


الفئة المتوقعة 


منفى خاطئ | موجب حقيقي 
(TP) (EN)‏ 


منفى حقيقي | موجب خاطئ 
(FP) (TN)‏ 


الآنء بناءَ على ذلك e‏ يمكننا تحديد معايير الدقة والاستدعاء و F1‏ 


© الاستدعاء. يشير إلى قدرة النموذج على التنبؤ بالحالات الإيجابية من بين جميع الحالات 
الإيجابية الحقيقية: 
TP‏ 


mc‏ = الاستدعاء 
ds‏ كا الاسقد 


أين يستخدم الاستدعاء؟ 


e‏ الدقة. gle‏ جزء الإيجابيات الحقيقية بين العينات التي يتوقع أن تكون موجبة: 
TP‏ 


SM = Fp TP 


أين تستخدم الدقة؟ 
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« يعتبر ۴1 معيارًا أفضل إذا كنت بحاجة إلى توازن بين الدقة والاستدعاء. ببساطة‎ Fle 
تجمع ۴1 بين الدقة والاستدعاء في معيار واحد عن طريق حساب الوسط التوافقي بين‎ 
الآثنين:‎ 

ت x‏ 
الاستدعاء + الدقة 


الحساسية' و النوعية ': ركز على التنبؤات الصحيحة 


طبيعة الحساسية والنوعية هي أنهما يركزان على نسبة التنبؤات الصحيحة. WY‏ يكون النموذج 
Go‏ هو المعيار للتنبؤات الصحيحة ويكون المقام دائمًا هو إجمالي التنبؤات المقابلة لتلك الفئة. 
بينما تقيس الحساسية نسبة الإيجابيات الحقيقية المتوقعة إلى جميع القيم الإيجابية الحقيقية › 
تقيس النوعية نسبة السلبيات الحقيقية المتوقعة إلى جميع القيم السلبية الحقيقية. تسمى النوعية 
Cao‏ المعدل السلبي الحقيقي وتسمى الحساسية المعدل الإيجابي الحقيقي. 

الحساسية تقاوم السلبيات الكاذبة. الحساسية العالية تعني معدل سلبي كاذب منخفض. بمعنى 
آخرء يتم التنبؤ بشكل صحيح بالحساسية لنسبة الإيجابيات الحقيقية: 

TP 
FN * TP 
لاحظ أن معادلات الاستدعاء والحساسية متطابقة رياضياً.‎ 


المعدل السلبى الكاذب - 1 = — الحساسية 


عند تصنيف الإيجابيات . يكون لها أولوية „ale‏ 
على سبيل المثال: الفحوصات ioil‏ فى المطارات. 


الخصوصية تتعارض مع الإيجابيات الكاذبة. الدقة العالية تعني انخفاض المعدل الإيجابي 
الكاذب. بمعنى آخر » فإن الخصوصية هي نسبة السلبيات الحقيقية هي التي يتم توقعها بشكل 
Gu‏ 
TN‏ 


aic‏ تصنيف السلبيات . يكون لها أولوية عالية. 
على سبيل المثال: تشخيص dla‏ صحية قبل العلاج. 


1 Sensitivity 


2 Specificity 


21 تعلم UY!‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 
تعلم = 5 هيم والخوارزمي 


طريقة القطع فى نموذج التصنيف 


في كل مرة تقوم Led‏ بتطوير نموذج c‏ يمنحك هذا النموذج احتمال وقوع الحدث Y el‏ يمكنك 
إجراء تخفيض في الاحتمال الذي تم الحصول عليه. على سبيل المثال « إذا كان الاحتمال أكبر 
من 0.50 » فإن التوقع يكون 1 وبخلاف ذلك يكون التوقع صفرًا. عادة ما يكون الاحتمال 
الافتراضي لجميع الخوارزميات في كل برنامج ومكتبة 0.50. ومع ذلك » يمكنك تغيير نقطة 
القطع هذه وفقا لغرض عملك. إذا كنت ترغب في تحمل المزيد من المخاطر » يمكنك اختيار 
قطع أقل من 0.50 e‏ وإذاكنت ترغب في تجنب المخاطرة في توقعك . يمكنك اختيار قطع أعلى 
من 0.50. 


antal‏ الفصل الخامس 
" خوارزمية التعلم SY‏ هي إجراء يتم تنفيذه على البيانات لإنشاء "نموذج" للتعلم الآلي. 
m‏ نموذج التعلم الآلي "الناتج" هو خوارزمية التعلم الآلي التي تعمل على البيانات. 
ot‏ توجد خوارزمية واحدة تحل جميع مشكلات التعلم JY‏ أفضل من أي خوارزمية 
أخرى. 
" إذاكان نموذج التعلم SY‏ يعمل بشكل جيد للغاية في بيانات التدريب (خطأ تدريب 
منخفض) ولكنه يعمل بشكل ضعيف عند اختبار بيانات جديدة (خطأ اختبار مرتفع) € 
فهذا عادة ما يكون علامة على أن النموذج gly‏ من الضبط الزائد -overfitting‏ 
" القدرة على التعلم بقوة هي سبب الضبط الزائد. 
" تعد المعاملات الفائقة وسيطات نموذجية يتم تعيين قيمها قبل بدء عملية التعلم. 
m‏ يعد ضبط المعاملات الفائقة عملية تحديد التركيبة الصحيحة من المعاملات الفائقة التى 
تسمح للنموذج بزيادة أداء النموذج إلى الحد الأقصى. ٤‏ 
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— ER 


Lo‏ هو التصنيف؟ 

أنواع التصنيف المختلفة. 

الفروق بين أنواع المتعلمين. 
التعرف على خوارزميات التصنيف. 
ما هو الانحدار؟ 

أنواع الانحدار. 


الفصل السادس: التعلم الخاضع للاشراف 


"em 


في التعلم الآلي » يشير التصنيف إلى مشكلة النمذجة التنبؤية التي يتم فيها تعيين كل حالة إلى فئة 
(أو فى بعض الحالات . مثل التصنيف متعدد العلامات أكثر من واحد). هذه الفتات محددة 
QU, s‏ ما يشار إليها على أنها أهداف أو علامات أو فئات. نظرًا لوجود تسميات في عملية 
التصنيف . يقع هذا النهج في فئة التعلم الخاضع للاشراف. يمكن عرض قضايا التصنيف من 
منظورين مختلفين i‏ من وجهة نظر عدد العلامات « والتي يمكن تقسيمها إلى مسألتين: التصنيف 
ذو علامة واحدة؟ والتصنيف متعدد العلامات” e‏ ومن منظور عدد الفثات . يمكن تنقسم إلى 
مسألتين: التصنيف الثنائي والمتعدد (متعدد الفتات). 

التصنيف الثنائي » حيث يتم تخصيص كل عينة لواحدة فقط من فئتين محددتين مسبقا » هو 
أبسط أنواع التصنيف. يمتد التصنيف الثنائي إلى تصنيفات متعددة من خلال تحديد المزيد من 
الفتات. التصنيف متعدد العلامات هو شكل عام من التصنيف ذي العلامات الفردية . حيث 
يمكن ربط كل حالة بمجموعة من العلامات بدلاً من العلامة. 


التصنيف هو عملي تعيين متغيرات إدخال X‏ جديدة (استناد | إلى نموذج تصنيف يعتمد على بيانات التدريب 


الموسومة مسبقا) Ga‏ الذى ينتمون إليه على الأرجح . 


Joly‏ التصنيف الربط بين alioll‏ التدريبية والفئات المحددة ا للمشكلة. 
تستخدم البيانات المصنفة لتدريب المصنف بحيث تعمل بشكل aa‏ على بيانات 
الإدخال الجديدة ويمكنها التنبؤ GAL‏ الصحيحة لهذه العينة. بمعنى jal‏ . الهدف هو 
العثور على تقريب ua‏ ل f (x)‏ بحيث يمكنه عمل تنبؤات لبيانات لم تظهر فى عملية 
التدريب وتحديد Sid!‏ التى تنتمى Law!‏ العينة الجديدة.. 


التصنيف ذو العلامة الواحدة 

تقوم المصنفات ذات العلامات الفردية (أو التقليدية) BUG‏ بتعيين علامة فئة لكل عينة إدخالء 
حيث يتعلم المصنف أن يرتبط JS‏ عينة مهملة بالفئة أو الفئة الأكثر احتمالًا. بشكل عام » يمكن 
تقسيم مشاكل التصنيف ذو العلامة الواحدة إلى مجموعتين رئيسيتين: المسائل الثنائية 
والمتعددة. 


1 single-label classification 


? multi-label classification 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


مشكلة التصنيف الثنائى هى أبسط حالة لمشكلة التصنيف حيث تقتصر مجموعة الفتات على 
اين فف ا هذا الد ها شيو بين 3 جا Ados‏ مثال بسيط على مشكلة 
التصنيف الثنائى هو عندما ترى امرأة Eb‏ لتكتشف أنها حامل. قد تكون نتيجة الاختبار إيجابية 
أو سلبية. l‏ 

عندما يكون عدد الفتات AST‏ من فئتين › فإن مشكلة التعلم تسمى التصنيف المتعدد. من 
المفترض أن تكون الفتات المستهدفة منفصلة وفريدة من نوعها. بمعنى آخر 6 تنتمي كل حالة 
إلى فئة واحدة بالضبط. على سبيل المثال » لدى الشخص فصيلة دم من بين الأنواع الأربعة ۸ أو 
B‏ أو AB‏ أو .O‏ 
التصنيف الثنائى 
إنها عملية يتم فيها تصنيف بيانات الإدخال إلى مجموعتين. التصنيف الثنائي هو في الأساس 
نوع من التنبؤ الذي يتعامل مع أي مجموعة من مجموعتي الفئات تنتمي إليها العينة. افترض أنه 
تم إرسال رسالتين إلكترونيتين إليك c‏ واحدة من شركة تأمين ترسل إعلانك والأخرى من البنك 
بخصوص فاتورة بطاقتك الائتمانية. يصنف موفر خدمة البريد الإلكتروني رسالتي بريد إلكتروني» 
يتم إرسال البريد الإلكتروني الأول إلى مجلد البريد العشوائي' ويتم تخزين البريد الإلكتروني 
الثاني في البريد الإلكتروني الرئيسي. تُعرف هذه العملية بالتصنيف الثنائي نظرًا لوجود فئتين 
متميزتين e‏ أحدهما بريد عشوائي والآخر رئيسي. إذن » هذه مشكلة تصنيف ثنائي. يوضح الشكل 
1-6 التصنيف الثنائي. 


صندوق الوارد 


ràin) 


sum [S7] EE spn ae 


الشكل 1-6 التصنيف SUE‏ | (كشف البريد العشوائي) 


التصنيف المتعدد (متعدد الفنات) 

التصنيف المتعدد أو متعدد الفئات هو تصنيف العناصر إلى old‏ مختلفة. على عكس التصنيف 
Stal‏ الذي يقتصر على فئتين فقط e‏ فإنه لا يوجد حد لعدد الفئات ويمكنه تصنيف أكثر من 
فئتين. على سبيل المثال » يعد تصنيف الأخبار إلى فئات مختلفة » وتصنيف الكتب حسب 


1 Spam 
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الموضوع . وتصنيف الحيوانات المختلفة في صورة أمثلة على OES‏ متعددة (الشكل 6-2 هو 
مثال على فئات متعددة). ومع ذلك e‏ بينما يتطلب التصنيف الثنائي نموذجًا واحدا فقط للتصنيف 
Ob >‏ عدد النماذج المستخدمة في التصنيف المتعدد يعتمد على تقنية التصنيف. في ما يلي › 
سوف نصف تقنيتين لخوارزميات التصنيف المتعددة. 


y» 


> 


À 
py 
ta 

i 


e 
e 


الشكل 6-2 التصنيفات المتعددة (تصنيف الفيلم حسب الموضوع) 

Joly‏ ضد الكل (واحد ضد البقية)1 
الطريقة الأولى مقابل الكل هي طريقة مبتكرة تستخدمها خوارزمية التصنيف الثنائي لتصنيفات 
متعددة. تتضمن هذه التقنية تقسيم مجموعة بيانات متعددة الفئات إلى عدة مجموعات من 
المشكلات الثنائية. في الفئة الأولى مقابل الكل e‏ لمجموعة البيانات ذات «IN coal‏ نحتاج 
إلى إنشاء فئة IN‏ ثنائية. بعد ذلك e‏ يتم تدريب كل من المصنفات الثنائية لعمل تنبؤ. على سبيل 
المثال « على الرغم من وجود مشكلة متعددة التصنيفات مع مجموعات البيانات الحمراء 
والخضراء والزرقاء c‏ يمكن إجراء التصنيف الثنائى لحل هذه المشكلة على النحو التالى: 

e‏ المسألة 1: الأحمر مقابل الأخضر/ الأزرق. 

e‏ المسألة 2: الأزرق مقابل الأخضر / الأحمر. 

e‏ المسألة 3: الأخضر مقابل الأزرق / الأحمر. 
واحد ضد واحد 2 


مثل طريقة واحد للجميع e‏ فإن طريقة واحد إلى واحد هو طريقة أخرى تستخدم خوارزمية 
تصنيف ثنائي لتصنيف مجموعات البيانات متعددة الفئات. في هذه الطريقة أيضًا e‏ يتم تقسيم 


1 One vs. All (One-vs-Rest) 
? One Vs. One 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


مجموعة البيانات متعددة الفئات إلى مجموعة من التصنيفات الثنائية المتعددة. في التصنيف 
واحد ضد واحد. لمجموعات البيانات ذات الفتات CIN‏ الرقم: 

N*(N—41) 

—3— 
يتم إنشاء فئة. باستخدام طريقة التصنيف هذا o‏ تصبح مجموعة البيانات الأصلية مجموعة 
بيانات» حيث يتناقض كل فئة مع الآخر. على سبيل المثال » بالنظر إلى مجموعة بيانات متعددة 
الفئات تحتوي على أربع cols‏ من الأزرق والأحمر والأخضر والأصفر . يقسمها طريقة Joly‏ 
لواحد إلى ست مجموعات بيانات ثنائية.: 


£ 


e‏ المسألة 1: الأحمر مقابل الأخضر. 
ه المسألة 2: الأحمر مقابل الأزرق. 
3: الأحمر plas‏ الأصفر. 
e‏ المسألة 4: الأخضر مقابل الأصفر. 
e‏ المسألة 5: الأزرق مقابل الأخضر. 
e‏ المسألة 6: الأزرق مقابل الأصفر. 


; 


التصنيف الفردى 
في مشاكل التصنيف الثنائية والمتعددة . يتم دعم دالة قرار التصنيف من خلال وجود حالات 
من كل فئة » وتم تصميم الخوارزميات ذات الصلة لتصنيف كل حالة جديدة في واحدة من عدة 
فئات محددة مسبقاً. في تطبيقات مثل الأنظمة الصناعية » تحدد البيانات المتاحة فقط OVE‏ 
التشغيل العادية للعملية الفيزيائية قيد الدراسة » بينما يصعب الحصول على البيانات المتعلقة 
بالحالات غير الفعالة والحالات الحرجة. عندما يتعلق الأمر بالعمليات الصناعية واكتشاف أخطاء 
الكمبيوتر والتطفل . بشكل cele‏ قد لا يكون عدد أوضاع الفشل والزيادة في عدد الهجمات التي 
تم إنشاؤها حديئًا محدودًا. هذا هو السبب في أن الباحثين طوروا خوارزميات لحل مشاكل من 
فئة واحدة على مدى السنوات القليلة الماضية حيث تشير مجموعة البيانات الحالية إلى فئة واحدة. 
تتعرف المصنفات الفردية على الأنماط السلوكية العادية للنظام قيد الدراسة. يقومون بتطوير 
دالات القرار لاختبار عينات جديدة غير متوفرة في قاعدة البيانات التدريبية » وقبول أكبر عدد 
ممكن من الحالات وتحديد النقاط البعيدة (أي عينة لا ينتمي إلى نفس توزيع مجموعة البيانات 
التدريبية). 
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التصنيف الفردى مقابل التصنيف الثنائى والمتعدد 
يختلف التصنيف الفردي عن التصنيف الثنائي والمتعدد OM‏ المجموعة التدريبية تحتوي فقط 
على كائنات Ball‏ المستهدفة ولا تتوفر معلومات حول الفئات الأخرى. وتتمثل مهمتها في وضع 
الحدود التي تحيط بالأشياء المستهدفة وتقليل فرصة استقبال الأشياء البعيدة. 
بمعنى آخر » يختلف التصنيف الفردي عن التصنيف SES)‏ (أو المتعدد) في أنه فى الحالة 
الأخيرة » تحدد مجموعة التدريب البيانات من جميع القغاك السحددة Gua‏ » ذلك ٠‏ فإن 
مجموعة البيانات الشاملة هذه غير موجودة في تصنيف فتة واحدة. أي أنه لا de‏ حالات من 
الفئة الثانية (أو عدة Obs‏ أخرى) متاحة أثناء التدريب. لذلك c‏ يتم تصنيف عينات BA‏ المتوقعة 
باستخدام عينات فئة واحدة فقط. بالإضافة إلى ذلك » نظرًا OY‏ مشاكل التصنيف الكلاسيكية 
GES‏ دوال تشخيصية SU‏ على حالات من جميع الفئات » فمن الممكن تحديدها بشكل طبيعي. 
تتطلب هذه الميزة مجموعة بيانات متوازنة لإنشاء حدود قرار فعالة. عندما تكون العينات من فئة 
ما أكثر وفرة من فئة أخرى » قد لا تعمل طرق التشخيص بشكل جيد وقد لا يتم استخدامها. 
نتيجة لذلك . يصبح التصنيف الفردي ساري المفعول. باختصار » يوصى بالتصنيف الثنائي (أو 
متعدد الفتات) إذا كانت مجموعة البيانات تتكون من عدد كبير من عينات جميع الفتات. على 
العكس من ذلك » فى الحالات غير المتوازنة عند ملاحظة تكرار حالات BB‏ معينة . يكون الحل 
هو استخدام الس الفردي. 
في بعض الأحيان » لا تكون مهمة التصنيف مجرد تعيين عينة اختبار BA‏ محددة مسبقاً e‏ 
jf‏ تحديد ما إذا كانت تنتمي إلى فئة معينة. ومع ذلك . فإن الغرض من التصنيف التقليدي 
متعدد الفتات هو تصنيف عينات SUL‏ غير معروف إلى واحدة من عدة DES‏ محددة مسبقا. 
Les‏ المشكلة عندما لا تنتمي Zoe‏ البيانات غير المعروفة إلى أي من هذه الفئات. لنفترض أن 
لدينا مجموعة بيانات تدريبية تتضمن أمثلة من الفواكه والخضروات. إذا تم تصنيف عينة اختبار 
غير معروفة (في مجال الفواكه والخضروات . مثل التفاح أو البطاطس) . فيمكن استخدام 
التصنيف الثنائي لهذه المشكلة. الآن إذا كانت عينة البيانات التجريبية من مجال مختلف GLS‏ 
(على سبيل المثال . قطة من Ha‏ حيوانية) e‏ فإن المصنف slo‏ يصنف القطة على أنها فاكهة أو 
خضروات » وهي نتيجة ELE‏ في WS‏ الحالتين. 
تطبيق التصنيف الفردى 
تستخدم التصنيفات الفردية على نطاق واسع في المجالات التالية: 
« في الكشف عن أخطاء الجهاز. على سبيل المثال » عند مراقبة علية تروس الهليكوبتر 
أ dL Sabe‏ افك BUS‏ 5 » أو عند اكتشاف انسكاب نفطى. هنا o‏ 
تسمل القع الي جميم OLS LI‏ غير (gS) E‏ ادن جا فى 
المقام الأول « وبالتالي » قد تشكل خطرًا على الناس وتؤدي أيضًا إلى ارتفاع التكاليف. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


انتظار حدوث الأخطاء ليس استراتيجية جيدة. بدلاً من ذلك » يعد ely‏ التصنيف 
الفردي fey‏ على ملاحظات الآلة العادية حلاً. 

e‏ التشخيص التلقائي للمرض. يتم تقديم البيانات الإيجابية مع الأمراض "الشائعة" التي 
يمكن تجميعها بسهولة معًا. بينما تتكون الفئة السلبية من أمراض "نادرة". من الصعب 
ملء فئة التحكم عن بعد OY i‏ اختبارات الأمراض النادرة باهظة الثمن وهناك مرضى 
نادرون يقللون من فتة العينات السلبية. 

e‏ في المصادقة النشطة للهاتف المحمول. نحصل فقط على الصور من المستخدم 
الحالي. نظرًا لصعوبة جمع عينات الفئات السلبية (المستخدمون الآخرون) بسبب 
مشكلات الخصوصية. 

e‏ برامج كشف الشذوذ' في الشبكة. 

٠‏ كشف التسلل في الأنظمة الصناعية. 

o‏ التعرف على حداثة السلاسل الزمنية. 

e‏ تحليل نوبات الصرعة من إشارات تخطيط كهربية الدماغ داخل الجمجمة. 

HRD التعرف على الأشياء المرئية في سياق تفاعلات الإنسان الآلي”‎ e 


يمكن تصنيفها إلى ثلاث تطبيقات عامة: اكتشاف الحداثة“. واكتشاف الشذوذ. والمصادقة 
الخلوية المتنقلة.في تشخيص Bled!‏ الهدف هو إيجاد حالات جديدة dy‏ للعينات المرصودة. 
لذلك» من الطبيعى أن تكون بيانات الفئة الجديدة غير معروفة. الغرض من الكشف عن الحالات 
الشاذة هو تحديد البيانات الشاذة. نظرًا oY‏ التدريب يتم باستخدام أمثلة القيادة العادية . يجب 
أن تتعلم Le‏ مفهوم أن تكون طبيعية..في مصادقة إجراءات الجوالء يتم التحقق من هوية 
المستخدم باستمرار. تتوفر فقط عيناته للكشف عن العينات السلبية. 


تستخدم خوارزميات التصنيف ذات ال الواحدة (التصنيف الاحادى) فى حالة عدم 2939 


Axa عدم تحديدها‎ gf. ضعف أخذ العينات‎ of. سلبية‎ ais 
لامات‎ JI 3 oo به‎ . oo 


يهتم التعلم الخاضع للإشراف باستنتاج العلاقات بين عينات الإدخال وعلامات الفئة.في مشاكل 
التصنيف التقليديةء يرتبط كل عينة بعلامة فئة. ومع eS‏ العديد من سيناريوهات العالم 
الحقيقي» قد يتم إقران عينة بعلامات متعددة. على سبيل المثالءفي فئة LEVI‏ يرتبط جزء من 


1 anomaly detection 


? seizure 


3 Human-Robot Interaction 


4 novelty detection 
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الأخبار حول إطلاق ابل لجهاز الايفون الجديد بكل من العلامة التجارية وعلامة التكنولوجيا. 
بمعنى ST‏ يرتبط كل عينة بمجموعة من العلامات بدلاً من واحدة فقط. التعلم متعدد العلامات 
هو سياق تعلم آلي يشير إلى التعلم من البيانات متعددة العلامات التي يرتبط فيها كل عينة بالعديد 
من العلامات المحتملة. 

يتمثل الاختلاف الرئيسي بين التعلم متعدد العلامات والتعلم التقليدي الثنائي أو المتعددني أن 
العلامات ليست حصريةفي التعلم متعدد العلامات. بمعنى آخر. قد يتم ربط كل حالة بعلامات 
متعددة. وبالتالي» فإن أحد التحديات الرئيسية للتعلم متعدد العلامات هو LAS‏ استغلال 
العلاقات المتبادلة بين العلامات المختلفة بشكل فعال. بالإضافة إلى ذلك» على عكس تصنيف 
العلامة المفردة. تتأثر مشكلة العلامات المتعددة بالارتباطات المخفية المتأصلة بين العلامات. 
هذا يعني أن عضوية عينةفي X3‏ ما يمكن أن تكون مفيدة للتنبؤ بمجموعة العلامات الخاصة بها. 
على سبيل JEI‏ يكون الشخص المصاب بارتفاع ضغط الدم أكثر عرضة للإصابة بأمراض 
القلب أكثر من cone‏ ولكن أقل عرضة للإصابة بسوء التغذية العضلي. 
التعلم متعدد العلامات 
يرتبط التعلم متعدد العلامات بالتنبؤ بعلامات العينات غير المرئية من خلال إنشاء فئة ely‏ على 
البيانات التدريبية. افترض أن X‏ و Y‏ يمثلان مساحة عينة الإدخال ومساحة علامة الإخراج. على 
التوالي.في التعلم متعدد العلامات» يتم تعريف مساحة العلامة Y‏ على CY = )0,1(“ tel‏ 
حيث k‏ هو عدد العلامات. أي» إذا كانت العينة مرتبطة بالتسمية o j‏ باستثناء أن j‏ هي متجه 
التسمية 1 وإلا فإن قيمتها تساوي صفرًا. على غرار التصنيف التقليدي» ig‏ لمجموعة بيانات 
التدريب» فإن الهدف هو تعلم f(X) > Y‏ التعلم متعدد العلامات بواسطة المصنف الذي 
ky‏ بعلامات كل عينة EX‏ . على وجه التحديد ناتج الفئة f‏ لعينة معينة هو X © XC‏ 


f (x) = [f GO» AC), f GOTT 
j تساوي واحدا أو صفرًاء مما يشير إلى علاقة × بالعلامة‎ G(x) = 0,...,k) حيث‎ 
تعريف التعلم متعدد العلامات بهذه الطريقة. لنفترض أن £ تمثل مساحة عينة‎ Lal يمكن‎ 
® = إذاكانت‎ Cas هي مجموعة محدودة من العلامات.‎ Y = (403, ... , Wo} الإدخال و‎ 
عينات متعددة العلامات‎ N تمثل مجموعة البيانات المكونة من‎ 1)#1,71(, ...) YD} 
ثم الغرض من تعلم متعدد العلامات هو إنشاء علامة 76 التي‎ « (xi Yr), x; € 26,1: SY 
وتحسين بعض معايير التقييم.‎ Y إلى المجموعة المرتبطة من علامات‎ X تعين عينة‎ 
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عندما يتعلق الأمر بالتعلم من البيانات متعددة العلامات . فهناك طريقتان رئيسيتان لحلها: 
تحويل المسألة' والخوارزمية ASI‏ في طريقة تحويل المسألة » يقوم أولاً بتحويل مسألة 
التعلم متعدد العلامات إلى سلسلة من المسائل أحادية العلامة ثم يحلها باستخدام أساليب التعلم 
أحادية العلامة الحالية. الهدف من الطريقة الثانية هو تكييف خوارزميات التصنيف الحالية بحيث 
يمكنها التعامل مع البيانات متعددة العلامات وإنشاء مخرجات متعددة بدلاً من واحدة فقط. 
بعبارة أخرى » يعمل تكيف الخوارزمية على توسيع خوارزميات العلامات الفردية للتعامل مباشرة 
مع البيانات متعددة العلامات. 


طريقة تحويل المسألة 

أبسط حل للتعلم متعدد العلامات هو طريقة حل المشكلات الذي يمكن استخدامه مع أي 
خوارزمية تعلم. في هذه الطريقة c‏ تصبح مشكلة التصنيف متعدد العلامات مشكلة واحدة أو أكثر 
من مشاكل التصنيف ذات العلامة الواحدة. يتم بعد ذلك دمج حلول هذه المشكلات لحل 
المشكلة الرئيسية للتعلم متعدد العلامات. تتضمن طريقة حل المشكلات ثلاثة مناهج رئيسية: 
الاتصال الثنائي” » ومجموعة قوة التسمية” » وترتيب العلامة”. 


GUI! الاتصال‎ 


تقسم طريقة الاتصال الثنائي (BR)‏ المعروفة أيضًا باسم إستراتيجية الفرد على الكل » مشكلة 
العلامات المتعددة مع فتات Q‏ المحتملة إلى مشاكل تصنيف Q‏ ذات علامة واحدة والتي يمكن 
تعلمها عن طريق تدريس المصنفات الثنائية Cha, ..., hg)‏ = 0. تم حلها. يتم تدريب كل q‏ 
مصنف Q}‏ ,... ,0611 على مجموعة البيانات الرئيسية والغرض منه هو تحديد علاقة العلامة 
الخاصة به بمثيل معين. عند تصنيف عينة جديدة × i‏ ينتج BR‏ مجموعة من العلامات التي 
يتم توقعها بشكل إيجابي بواسطة المصنفات الثنائية. ثم يتم تحديد الفئات ذات علامات متعددة 
H = (woe U|ho(x) = 1)‏ 
الارتباط بين العلامات IS‏ علامة على حدة. لمواجهة الجوانب السلبية ل BR‏ » تم تقديم سلسلة 
فغات؟ (CC)‏ . والتي تتضمن مصنفات ثنائية Q‏ مترابطة على طول السلسلة. طريقة مجموعة 


1 problem transformation 
2 adaptation algorithms 

3 binary relevance 

4 label powerset 

> label ranking 


6 Classifier Chain 
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قوة العلامة المقدم في القسم التالي هو Carl‏ أحد البدائل للتعامل مع هذه الجوانب السلبية لطريقة 
.BR‏ 

مجموعه 893 العلامة 

By‏ لمجموعة التدريب D‏ مع N‏ من العينات » فإن طريقة مجموعه قوة العلامة (LP)‏ تأخذ في 
الاعتبار كل مجموعة فريدة من العلامات في D‏ كعلامة ثم يعلم مصنف علامة واحدة. ade‏ 
الفتات محدود بالحد الأدنى min (28, n)‏ يعتمد تعقيد LP‏ على مدى تعقيد الفتات ذات 
العلامة الواحدة Giy‏ لعدد الفئات. للحصول على عينة جديدة » يُخرج نهج LP‏ الفئة الأكثر 
احتمالًا 6 وهى مجموعة من العلامات فى العرض الأصلى متعدد العلامات. تتمتع LP‏ بميزة 
النظر في ارتباطات العلامة. ومع US‏ فإن أحد الجوانب السلبية لهذه الطريقة هي أنه قد تؤدي 
إلى مجموعة بيانات غير متوازنة مع عدد كبير من SEA‏ مع عينات ALIS‏ 

طريقة الخوزارزمية التكييفية 

تعمل طرق مطابقة المشكلات على تخصيص خوارزميات التعلم الآلي التقليدية لإدارة مفاهيم 
العلامات المتعددة بشكل مباشر. هذه الأساليب لها ميزة التركيز على خوارزمية محددة. ميزة 
أخرى هي أن هذه الأساليب تستخدم مجموعة بيانات التدريب بأكملها فى وقت واحد لتدريب 
فئة متعددة العلامات. بشكل عام c‏ أداء هذه الخوارزميات في مشاكل العالم الحقيقي الصعبة 
أفضل من طرق حل المشكلات . وهذا على حساب المزيد من التعقيد. 

تطبيقات التصنيف متعددة العلامات 

بمجرد تقديم المفاهيم الأساسية المتعلقة بالتصنيف متعدد العلامات» فإن السؤال التالي الذي 
قد يطرح نفسه هو المكان الذي تنطبق فيه. كما ذكرنا سابقاء فإن الغرض من المصنف متعدد 
العلامات هو التنبؤ بمجموعة من العلامات ذات الصلة لعينة بيانات جديدة.في هذا القسم يتم 
توضيح العديد من مجالات التطبيق التي يمكن أن تستفيد من هذه الميزة. 

تصنيف المشهد1 

في تصنيف المشهد € يتم تعيين المهمة لتحديد العلامات الدلالية ذات الصلة مثل الجبل والبحيرة 
وما إلى ذلك للصور. يتم استخدام تصنيف المشهد في العديد من المجالات . بما في ذلك 
فهرسة الصور القائمة على المحتوى وتحسين الصورة الحساسة للمحتوى. على سبيل المثال e‏ 
تدعم العديد من أنظمة المكتبات الرقمية الحالية استرجاع الصور المستند إلى المحتوى c‏ مما 
يسمح للمستخدم باسترداد الصور التي تشبه صورة الاستعلام. في هذه الحالة » يمكن أن تؤدي 


1 Scene Classification 
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معرفة العلامات الدلالية لصورة الاستعلام إلى تقليل مساحة البحث وتحسين دقة الاسترجاع. 
نظرًا OY‏ المشهد الطبيعى قد يحتوي على كائنات متعددة » يمكن ربط كل صورة بعلامات متعددة. 
cp‏ فان ضيف pn tal‏ بطيعة الان eld Srt‏ دة OE‏ 
تصنيف النص 
تصنيف النص هو مهمة تصنيف المستندات النصية في مجموعة واحدة أو أكثر من الفتات 
المحددة مسبقاً. تعود مشكلة تصنيف النص إلى أوائل الستينيات. ومع AUS‏ فقد تحسنت فعالية 
تصنيف النص بشكل ملحوظ في العقود الأخيرة بسبب التقدم في أساليب التعلم الآلي. يمكن 
العثور على المستندات النصية في كل مكان , بدءًا من الشركات الكبيرة التي تخزن مجموعة 
متنوعة من الاتفاقيات والتقارير إلى الأفراد الذين يقومون بتسجيل فواتيرهم ورسائل البريد 
الإلكتروني الخاصة بهم. جميع الكتب والمجلات المنشورة وسجلاتنا الطبية التاريخية وكذلك 
المقالات في الوسائط الإلكترونية ومنشورات المدونات وما إلى ذلك هي أيضًا مستندات نصية. 
تم استخدام تصنيف النص في العديد من المجالات مثل تصنيف صفحات الويب والتعرف 
على موضوع النص وتصفية المحتوى وما إلى ذلك. Bale‏ . لا تعتبر العلامات (أو الفثات) 
المحددة مسبقًا في تصنيف النص حصرية بشكل متبادل. وبالتالي يمكن أن يصنف تصنيف 
النص بشكل طبيعي على أنه مشكلة تدريبية متعددة العلاماث. على سبيل المثال » ضع في اعتبارك 
علامات الأعمال والتكنولوجيا والترفيه والسياسة في فة الأخبار. قد تحتوي مقالة إخبارية حول 
إطلاق ابل لجهاز الايفون الجديد على علامة تجارية وتقنية تسمية. 
التحليل الجينومي الوظيفي" 
علم الجينوم الوظيفي هو مجال مهم في المعلوماتية الحيوية يدرس وظيفة الجينات والبروتينات 
من خلال إجراء تحليل واسع النطاق على كميات كبيرة من البيانات التي تم جمعها بواسطة 
مشاريع الجينوم. على سبيل المثال » تسمح المصفوفات الدقيقة للحمض النووي للباحثين 
بقياس مستويات التعبير لالاف الجينات المختلفة في وقت واحد. 
في تحليل التعبير الجيني الآلي . تتمثل المهمة في التنبؤ بوظيفة الجينات . وبشكل عام » 
تعتمد على افتراض أن الجينات ذات الوظائف المتشابهة لها ملامح تعبير متشابهة في الخلايا. 
لاحظ أن كل جين قد يرتبط بعدة وظائف في الجينوميات الوظيفية. عندما يتم تسمية الوظائف › 
يمكن نمذجة مشكلة التنبؤ الوظيفي في الجينوميات الوظيفية كمشكلة تعلم متعددة العلامات. 


! Functional Genomics Analysis 
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تحديات التصنيف متعدد العلامات 


بالمقارنة مع التصنيفات التقليدية الثنائية والمتعددة . فإن حل مشكلة التصنيف متعدد العلامات 
يعد أكثر صعوبة. فيما يلي بعض التحديات الرئيسية في تطبيق التعلم متعدد العلامات بنجاح 
على قضايا العالم الحقيقي.. 

يكمن التحدي الأول في كيفية الاستغلال الفعال لهيكل العلامة لتحسين أداء التصنيف. في 
التعلم متعدد العلامات . Ue‏ ما تكون العلامات مترابطة. لأنها ليست فريدة من نوعها بشكل 
متبادل. لذلك » فإن Las‏ قياس الارتباطات وتسجيلها فى مساحة العلامة مهمة جدا لتحسين 
التنبؤ. l‏ 

التحدي الثاني هو فعالية وكفاءة التعلم متعدد العلامات للمشاكل واسعة النطاق ؛ خاصة 
عندما يكون حجم العلامات وعددها كبيرًا. يعاني التعلم متعدد العلامات أيضًا من لعنة الأبعادأ 
كما أن العديد من طرق التعلم متعددة العلامات الحالية أقل فعالية للبيانات عالية الأبعاد OY‏ 
نقاط البيانات مبعثرة ومتباعدة في الفضاء عالي الأبعاد. على سبيل JEI‏ « أساليب BR‏ و LP‏ 
التي تمت مناقشتها مسبقًا تقتصر على أحجام علامات صغيرة نسبيًا. في الآونة الأخيرة » تم 
اقتراح طرق للتعامل مع عدد كبير من العلامات. على سبيل المثال » يتم تقليل حجم مساحة 
العلامة باستخدام تعيين عشوائي. بالإضافة إلى ذلك › عندما يكون عدد العلامات كبيرًا » يصبح 
من الصعب حفظ عدد كبير من نماذج التنبؤ في الذاكرة. 


خوارزميات التصنيف 


في مشكلة تصنيف التعلم الآلي c‏ نبدأ بمجموعة بيانات (حيث تأتي النقاط من مساحة العينة) e‏ 
x‏ إلى جنب مع علامة (أو فئة) لكل نقطة (حيث يوجد عدد محدود من العلامات الممكنة). 
نفترض أن النقاط في مجموعة البيانات يتم توزيعها بشكل مستقل وموحد c‏ ولدينا نقطة بيانات 
جديدة من توزيع مشابه لمجموعة البيانات تسمى الاستعلامة » ويفترض أيضًا أنها مستقلة عن 
نقاط مجموعة البيانات. ومع ذلك . ليس لدينا علامة للاستعلام. وبالتالي » نريد توقع تسمية 
الاستعلام Fly‏ على مجموعة البيانات. 

على سبيل المثال » لنفترض أننا نريد التنبؤ بما إذاكان الشخص معرضا Ehys‏ للإصابة بأمراض 
القلب. لدينا بيانات من جينومات الأشخاص الذين لديهم تسلسل جيني وما إذا كانوا يعانون من 
أمراض القلب أم لا. لدينا الآن مريض جديد لدينا جينومه ولكننا لا نعرف ما إذاكان مصابًا بمرض 


1 curse of dimensionality 


? query 
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في القلب. لذلك » نريد أن نتنباً بما إذا كان الشخص مصابًا بأمراض القلب Ely‏ على التسلسل 
الجيق 4 dla m JI cola plo‏ آي ager) all 2 Lily de panes‏ 

إذا كانت X‏ عبارة عن مجموعة بيانات و ULE Y‏ عن مجموعة من الفئات « OD‏ المصنف 
fiX OY‏ هو Jis‏ تحاول التنبؤ بالفئة y‏ لنقطة البيانات ×. دقة الفئة f‏ هي احتمال توقعنا 
للعلامة الصحيحة للاستعلام » وخطأ الفئة f‏ هو احتمال توقعنا للعلامة غير الصحيحة. نريد 
العثور على مصنف/ الذي تكون دقته عالية قدر الإمكان (أو » على نحو مكافئ 6 يكون خطأه 
صغيرًا قدر الإمكان). عملية تكوين 33 f‏ تسمى التعلم. قاعدة التعلم هي مجموعة من الدوال 
التى تأخذ مجموعة من BUD‏ البيانات المسماة وتعطى مصنفًا فى المخرجات يمكننا استخدامه 
اميك نقاط الاستعلام. عند تطبيق قاعدة التعلم ثم استخدامها لتصنيف النقاط WE we.‏ ما 
نشير إلى مجموعة قاعدة التعلم والفئة كفئة. 

لاختبار Bo‏ كل مصنف . نأخذ مجموعة البيانات ونقسمها إلى مجموعتين فرعيتين 
منفصلتين» مجموعة التدريب والمجموعة التجريبية. تستخدم مجموعة التدريب لبناء e f‏ 
وبالتالي نتوقع علامات blä‏ مجموعة البيانات التجريبية. ثم نقارن العلامات المتوقعة بالعلامات 
الصحيحة في مجموعة الاختبار ونحسب دقة تنبؤنا. 


المتعلمين البارامترية وغير البارامترية 


يمكن تصنيف خوارزميات التعلم الآلي إلى فئتين » بارامتري أو غير بارامتري. يمكن وصف 
المعامل بأنها متغير تكوين متأصل في النموذج. يمكن اعتبار قيمة المعامل من البيانات التعليمية. 
بعد التدريب e‏ يتم استخدام المعاملات لتحديد أداء النموذج في بيانات الاختبار. بمعنى آخر › 
يستخدمهم النموذج للتنبؤ. نموذج التعلم الآلي مع عدد من المعاملات هو نموذج بارامتري. 
باختصار » عادة ما تحتوي النماذج البارامترية في التعلم JY‏ على نهج قائم على النموذج نقوم 
فيه بافتراض وفقا لشكل الدالة المراد تقديرها ثم تحديد النموذج المناسب Fly‏ على هذا 
الافتراض لتقدير مجموعة المعاملات. أكبر عيب للطرق البارامترية هو أن الافتراضات التي 
نتخذها قد لا تكون دائمًا صحيحة. على سبيل المثال » قد تفترض أن شكل الدالة خطي e‏ بينما 
لا يكون كذلك. ومع ذلك فإن الطرق البارامترية سريعة جدا وتتطلب Cal‏ بيانات أقل بكثير من 
الطرق غير البارامترية. من الأمثلة الشائعة على الخوارزمية البارامترية الانحدار الخطي. 

في المقابل » تعرف الخوارزميات التي ليس لها افتراضات محددة حول نوع دالة التخصيص 
بالخوارزميات غير البارامترية. نظرًا لعدم وجود افتراض في هذه الطرق › يمكنهم تقدير الدلة 
المجهولة f‏ « والتي يمكن أن تكون بأي شكل. عادة ما تكون الطرق غير البارامترية أكثر دقة لأنها 
تسعى للحصول على أفضل ملاءمة مع نقاط البيانات ويمكنها التقاط جوانب أكثر دقة من 
البيانات. ومع ذلك . يأتي هذا على حساب الحاجة إلى عدد كبير من الملاحظات لتقدير الدالة 
المجهولة بدقة .f‏ بالإضافة إلى ذلك e‏ نظرًا OY‏ هذه الخوارزميات أكثر مرونة » فقد تتعلم Ghat‏ 
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الأخطاء والضوضاء بطريقة لا يمكن تعميمها بشكل جيد على نقاط البيانات الجديدة وغير 
المرئية. باختصار . يكون التبادل بين المتعلمين البارامتريين وغير البارامتريين في التكلفة 
الحسابية والدقة. المثال الشائع للخوارزمية غير البارامترية هو خوارزمية كي أقرب جار. 


المتعلمين على أساس العينة 


المتعلمين المعتمدين على العينة هم خوارزميات تصنيف غير بارامترية تصنف عينة جديدة غير 
مسماة وفقا لعينة من التسميات المماثلة فى مجموعة التدريب. فى جوهر هذه الخوارزميات 
طريقة بحت tla‏ يكن أن سس هذه ola ed idi‏ ماه من عدف صخي ما مذ 
الحالات وتكون مناسبة بشكل طبيعي للمجالات العددية. ومع ذلك » يمكن أن تكون حساسة 
للغاية للميزات غير ذات الصلة ولا يمكنها تحديد ميزات مختلفة في مناطق مختلفة من مساحة 
العينة. بالإضافة إلى ذلك c‏ على الرغم من أن التعقيد الزمني لتدريب هذه النماذج منخفض إلا 
أن تصنيف عينة جديدة يستغرق ES‏ طويلاً نسبيًا. 

أبسط خوارزمية قائمة على العينة هي متعلم أقرب جار » والذي تكون قاعدته لتصنيف Ba‏ 
غير معروف كما يلي: قم بقياس وتحديد فئة أقرب عينة في مجموعة التعليمات بمعيار مسافة 
محدد. على الرغم من بساطتها c‏ تتمتع فئة الجار الأقرب بالعديد من المزايا مقارنة بالطرق 
الأخرى. على سبيل المثال » يمكن تعميمها من خلال حزمة تدريبية صغيرة نسبيًا. وهذا يعني . 
مقارنة بالطرق الأخرى » مثل أشجار القرار أو الشبكات العصبية . أن مصنف أقرب جار يتطلب 
عينات تدريب أصغر لتحقيق دالة التصنيف نفسها. يمكن لمصنف الجار الاقرب تحقيق دالة 
يمكنها التنافس مع طرق أكثر حداثة cies y‏ مثل أشجار القرار أو الشبكات العصبية. 
الفرق بين المتعلمين المستندين إلى العينة والمستندين إلى النموذج 


يتم تلخيص الاختلاف الرئيسي بين المتعلمين المعتمدين على العينة والمتعلمين المعتمدين على 
النموذج في كيفية تعميم معلوماتهم. يحفظ المتعلمون المعتمدون على العينات جميع البيانات 
الموجودة في مجموعة التدريب ثم يحددون نقطة بيانات جديدة بنفس قيمة المخرجات أو 
متوسط نقاط البيانات نفسها التي يتم حفظها. من ناحية أخرى e‏ يقوم المتعلم المستند إلى 
النموذج بإنشاء خط تنبؤ أو قسم تنبؤ Fly‏ على الخصائص المختلفة للبيانات التي تم تدريبها. 
أخيرًا » يتم وضع نقطة بيانات جديدة على طول هذا الخط أو في أقسام محددة Ely‏ على 

لفهم هذين المتعلمين بشكل أفضل » يوضح المثال التالي (القصة) الفرق بشكل أفضل. في 
وسط بلدة صغيرة » كان هناك متجر ملابس شهير تديره أم وابنتها. يجب أن تعرف الأم مقدار 
الأموال التي سينفقها العميل في متجرها . لأنها كانت تكره المفاجآت. قررت ابنتها » خريجة 
علوم الكمبيوتر » بناء نظام حتى لا تضطر والدتها إلى التعامل مع ضغوط عادات الإنفاق غير 
المعروفة لديها. ينظر النظام إلى خصائص العميل عند دخوله المتجر. تضمنت بعض الميزات 
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نوع السيارة التي يركبها العملاء وسعر الملابس التي يرتدونها. كان من الشائع في هذه المدينة أن 
تعكس دائمًا عادات الإنفاق الخاصة بك من خلال سيارتك وملابسك. كان العميل المعتاد 
للمحل شايًا يدعى شيرفين. كان شيرفين رجل أعمال ناجحًا وأحد أغنى أعضاء المدينة. يقود 
سيارة BMW‏ ويتباهى باستمرار بملابسه باهظة الثمن. اختار النموذج الذي بنته ابنته عملاء جدد 
لديهم سيارات فاخرة وملابس باهظة الثمن 6 وتوقع أنهم سينفقون ما ينفقه شيرون في المتجر. 
في معظم الحالات كان هذا النموذج ناجحًا VOLS‏ لأن كل شخص ثري في هذه البلدة الصغيرة 
كان لديه نفس المبلغ تقريبًا من المال. ثم في يوم من الأيام دخل لاعب كرة قدم عظيم اسمه علي 
المدينة. رفض علي أن يُرى ch‏ شيء أقل من أحدث طراز لامبورغيني وأفضل الملابس 
المخصصة التي اشتراها من إيطاليا. عندما اقترب علي من المتجر » توقع النموذج أن ينفق علي 
نفس المبلغ الذي ينفقه شيرفين. على الرغم من أن سيارات علي وملابسه كانت أغلى بكثير من 
شيرفين » إلا أن هذه كانت أقرب نقطة بيانات يجب أن يشير إليها النظام. Gal‏ علي في النهاية 
على المتجر أكثر بكثير من شيرفين. انزعجت الأم من هذا وسمحت لابنتها بإعادة النظر في 
نموذجها. ومن ثم e‏ قررت الفتاة استخدام نظام يستخدم المتعلم المستند إلى النموذج بدلاً من 
النظام الذي تستخدمه (أي المتعلم المستند إلى العينة). وبالتالي . إذا دخل عميل جديد . بدون 
ميزات تعكس By‏ البيانات التي يتذكرها النموذج بالفعل . فمن المرجح أن تعكس التوقعات 
المبلغ الذي ينفقه في المتجر. في المرة التالية التي واجهت فيها سيارة غير مألوفة عميلا يرتدي 
ملابس غير مألوفة c‏ قدم النموذج تنبو؟ دقيقا للمبلغ الذي سينفقونه في المتجر. بعد ذلك . تمكنت 
الأم من التأكد من أن ذلك لن يحدث مثلما حدث علي. 

في هذه القصة » تمكنا من رؤية موقف لا يوفر فيه نموذج التعلم القائم على العينة تنبو دقيقا. 
وذلك oY‏ نقطة البيانات الجديدة (السببية) عملت كنقطة بعيدة مقارنة بالبيانات التي تم تدريب 
النموذج عليها. يمكن أن تؤدي نماذج التعلم القائمة على العينات أداءً جيدًا للغاية إذا كانت 
البيانات التي يتم تدريبها مماثلة للبيانات الجديدة التي يحاولون التنبؤ بها. ومع ذلك . في 
المواقف التي قد تكون فيها OVE‏ بعيدة . قد يخطئ النموذج المستند إلى العينة في القيمة 
المتوقعة. ومع ذلك c‏ يعتمد نوع النموذج الذي تستخدمه في النهاية لمشكلة التعلم الآلي على 
الظروف والمواقف. 


الفرق بين المتعلمين /الخوارزميات البارامترية وغير البارامترية 


المتعلم البارامتري 
تضع الأساليب البارامترية افتراضات كبيرة حول تعيين متغيرات الإدخال لمتغيرات الإخراج « 
والتي بدورها تكون أسرع في التعلم » وتتطلب بيانات أقل » ولكنها قد لا تكون قوية. 
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أمثلة على هذه الخوارزميات 
e‏ الانحدار اللوجستى 
۰ بيربيسترون 
o‏ نايف بايز 
الفوائد: 
e‏ أبسط وأكثر قابلية للفهم ؛ من الأسهل تفسير النتائج. 
٠‏ التعلم أسرع من البيانات. 
o‏ هناك حاجة إلى بيانات تدريبة JT‏ لتعلم دالة التطبيق. 
المحددات: 
e‏ قيود النموذج. الأساليب البارامترية تحد الخوارزمية إلى صيغة Wo‏ معينة. 
c‏ من غير المحتمل أن يتوافق ضعف الملاءمة في الممارسة مع دالة التطبيق 
الأساسية. بعبارة أخرى . لا توفر هذه الأساليب الأنسب للبيانات. هم على 
الأرجح لا يتطابقون مع دالة التخصيص. 


للمشكلات الأقل تعقيدا. 
المتعلم غير البارامتري 


تضع الطرق غير البارامتري افتراضات قليلة حول دالة الهدف أو ليس لديها افتراضات حول دالة 
الهدف . وتتطلب بدورها بيانات AST‏ بكثير » وتكون أبطأ في التدريب » ولها تعقيد أعلى 
للنموذج» ولكنها يمكن أن تنتج نماذج أكثر قوة. 
أمثلة على هذه الخوارزميات 
dross ۵‏ 
o‏ شعاع الدعم الآلي. 
٠‏ اشجار التصميم مثل CART‏ و C4.5‏ 
المزايا: 
e‏ قوة عالية من خلال وضع فرضيات ضعيفة أو معدومة حول الدالة الأساسية. 
dy, e‏ عالية ler‏ يعنى أنها يمكن أن تستوعب عددًا كبيرًا من أشكال الدوال. 
e‏ إنتاج أداء عالي في النماذج التنبؤية. 
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العيوب: 
e‏ البيانات التدريبية. هناك حاجة إلى مزيد من بيانات التدريب لتقدير دالة التطبيق. 
0 السرعة. التدريب أبطأ. 


٠‏ الضبط الزائد. بقدر ما تميل هذه الخوارزميات إلى ملاءمة البيانات بشكل أفضل 
من الخوارزميات البارامترية » فهي أكثر عرضة للضبط الزائد. 


المتعلم الكسول والمتحمس 


عندما تبني خوارزمية التعلم الآلي نموذجًا فور تلقي مجموعة بيانات إرشادية » يطلق عليها اسم 
المتعلم المتحمس. يُطلق على هذا النهج الحماسي . لأنه عندما يتلقى مجموعة البيانات « OB‏ 
أول شيء يفعله هو بناء النموذج. ثم تنسى بيانات التدريب وتستخدم هذا النموذج لاحقا لتقييمها 
عندما تأتي بيانات الإدخال. معظم خوارزميات التعلم الآلي مخصصة للمتعلمين المتحمسين. 

في المقابل . عندما لا تبني خوارزمية التعلم SY‏ نموذجًا فور تلقي بيانات التدريب » لكنها 
تنتظر تقديم بيانات الإدخال للتقييم 6 يطلق عليها اسم المتعلم الكسول. تسمى هذه الطريقة 
بالكسل لأنها تؤخر بناء النموذج حتى يصبح ضروريًا للغاية. بمعنى آخر . عندما يتلقى بيانات 
Ql‏ فإنه يخزنها فقط. في وقت لاحق . عندما تأتي بيانات الإدخال . عندها فقط تستخدم 
البيانات المخزنة لتقييم النتيجة. لا يتعلم المتعلم الكسول دالة قابلة للفصل من البيانات التدريبية 
ولكنه يتذكر مجموعة البيانات التدريبية. على العكس من ذلك e‏ يتعلم المتعلم المتحمس وزن 
نموذجه (المعاملات) بمرور الوقت. من الأمثلة الشائعة على المتعلم الكسول كي- أقرب جار. 


كى -اقرب جار 


يعتبر المصنف S‏ اقرب جار (CKNN)‏ واحدا من أقدم وأبسط خوارزميات التعلم الخاضع 
للإشراف والأكثر فاعلية لتصنيف مجموعات البيانات. تعتمد خوارزمية KNN‏ على افتراض أن 
الأشياء المتشابهة قريبة من بعضها البعض. بالمقارنة مع خوارزميات التصنيف الأخرى . فإن 
أقرب جار يستخدم أسلوب التعلم الكسول. بمعنى ST‏ يقوم ببساطة بتخزين العينات في مرحلة 
التدريب ولا يفعل شيئًا حتى يتم استلام عينات الاختبار. 

يقدم الشكل 3-6 نظرة عامة على فئة الجار الأقرب. كما يتضح e‏ تلعب المعامل k‏ دورًا مهما 
في تصنيف العينة الجديدة. OY‏ قيم ‏ المختلفة قد تؤدي إلى نتائج تصنيف مختلفة Wie‏ 
بالإضافة إلى ذلك » قد تؤدي حسابات المسافة المختلفة إلى جيران مختلفة c‏ مما يؤدي إلى 


! The Nearest Neighbor 
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نتائج تصنيف مختلفة. ومن ثم » فإن قيمة K‏ المحددة تحدد دقة التنبؤات وعدد الأخطاء ‏ لذا 
فإن اختيار ‏ الصحيح له أهمية أساسية في هذه الخوارزمية. يعتمد اختيار × المثالي على البيانات 
> لكن الكميات الكبيرة من K‏ تقلل من تأثير الضوضاء على التصنيف » بينما تقل التمييز بين 
الحدود والتجمعات. 


k=l 
+ في الفئة‎ × 


k=3 
 ةئفلا في‎ × 


\ \ 4 / / د‎ E 
3 N See 17 7 k = 9 
\ ` 7 fee 
\ S oe + فى الفئة‎ × 
as b EM d 7 = 
x Fd 
bg "di 
Sa Pd 


جم س ے — — 


شكل 3-6 المصنف كي أقرب جار. 

يعتمد المصنف كي اقرب جار على التعلم من خلال التشابه". يتم وصف الأمثلة التدريبية 
بواسطة الخاصية p‏ تمثل كل عينة نقطة في مساحة p‏ التالية. odg‏ الطريقة » يتم تخزين جميع 
عينات التدريب في مساحة نمط D‏ ومن ثم » عند إعطاء عينة غير معروفه له » يبحث المصنف 
كي الجار في مساحة النمط لعينات تعليمات k‏ الأقرب إلى العينة غير المعروفة. هذه الأمثلة 
التدريبية K‏ هي أقرب جيران للعينة غير المعروفة. لتحديد أقرب جار لنقطة بيانات » يجب أن 
نستخدم ار التشابه أو الاختلاف بين نقاط البيانات. هناك العديد من معايير التشابه أو 
الاختلاف » بما في ذلك المسافة الإقليدية » ومسافة مينكوفسكي » ومسافة هيمينج o‏ ومعامل 
ارتباط بيرسون . وتشابه جيب التمام » وفي هذا القسم . تم شرح المسافة الإقليدية. 

يتم تحديد المسافة الإقليدية على النحو التالي: 


p 
d(xi, xj) = X Gu = X) yt +j. 
l=1 


1 analogy 
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بمعنى آخر . لكل خاصية عددية e‏ نأخذ الفرق بين القيم المقابلة لتلك الخاصية في العينة Xi‏ وفي 
العينة ز× » نقوم بتربيع هذا الاختلاف c‏ وفي النهاية يتم أخذ المربع من مجموع عدد المسافات. 
dole‏ « نقوم بتسوية قيم كل خاصية قبل استخدام المعادلة. يساعد هذا في ضمان أن الميزات 
ذات المجالات الأولية الكبيرة لا تلغي الميزات ذات المجالات الأولية الأصغر. 


المسافة الإقليدية هى مقياس بين نقطتى بيانات 


المسافة الإقليدية أكبر . كلما كانت نقطتا البيانات أكثر اختلافا. 


يتم استخدام خوارزمية KNN‏ لكل من التصنيف والانحدار (التوقع). يحاول KNN‏ التنبؤ 
بالفئة الصحيحة لبيانات الاختبار عن طريق حساب المسافة بين بيانات الاختبار وجميع نقاط 
التدريب. عادة بالنسبة لقضايا التصنيف c‏ يمكن استخدام التصويت للتنبؤ بعينة الاختبار باعتبارها 
ssi‏ تصنيفات الفصل شيوعًا في k‏ الجيران. بالنسبة لمشاكل الانحدار » يمكن استخدام 
المتوسط للتنبؤ بالعينة التجريبية على أنها متوسط ناتج k‏ للقيمة الحقيقية. 


لا تحتوى خوارزمية كى-اقرب جار على افتراضات حول كيفية توزيع البيانات. وبالتالى. فإن 


عدم القلق بشأن التوزيع يعد ميزة كبيرة. هذا يعنى ail‏ يمكن تطبيق KNNs‏ على 
مجموعات بيانات مختلفة. 


كيف تعمل خوارزمية كى - أقرب جار 


توضح الخوارزمية التالية كيفية عمل KNN‏ 


خوارزمية كي- أقرب جار: 
الخطوة 1: حدد رقم K‏ المجاور. 
الخطوة 2: المسافة الإقليدية (أو معايير المسافة الأخرى) احسب عدد Kobe‏ . 
الخطوة 3: رتب المسافة وحدد أقرب الجيران eo K‏ على المسافة الإقليدية الدنيا 
الخطوة 4: من هذا الجار ‏ . احسب عدد BUS‏ البيانات فى كل فئة. 
الخطوة 5: قم بتعيين نقاط البيانات الجديدة للفئة مع أقصى عدد من الجيران. 
تعتمد خوارزمية KNN‏ على نوع التعلم على النحو التالي: 
* التعلم القائم على العينة: في هذه الطريقة . لا نتعلم الأوزان من بيانات التدريب للتنبؤ 
بالمخرجات (مثل الخوارزميات القائمة على النموذج) ولكننا نستخدم عينات تدريب 
كاملة للتنبؤ بمخرجات البيانات غير المرئية. 
on‏ التعلم الكسول: لا يتم تعلم النموذج باستخدام بيانات التدريب السابقة ويتم تأجيل 
عملية التعلم حتى يتم طلب التنبؤ في العينة الجديدة. 
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غير البارامترية: في KNN‏ . لا يوجد شكل محدد Gs‏ لدالة التخصيص. 
مميزات خوارزمية كى - أقرب جار: 
de e| e‏ التنفيذ. 
e‏ وقت التدريب صفر (أو القليل (de‏ 
٠‏ ليس لديه افتراضات حول كيفية توزيع البيانات. 
e‏ من السهل Oe‏ فهم خوارزمية KNN‏ للمبتدئين في التعلم الآلي. 
عيوب خوارزمية كى - أقرب جار: 
e‏ يجب دائمًا ضبطه على K‏ . الأمر الذي قد يكون des‏ فى بعض الأحيان. 
WS o‏ الحسابات عالية بسبب حساب المسافة بين نقاط البيانات لجميع عينات 
التدريب. 
ه لا يعمل بشكل جيد على البيانات غير المتوازنة. لذلك e‏ قد يتم تجميع البيانات الأقل 
وفرة بشكل غير صحيح. 


کی - اقرب جار فى بايثون 
في هذا القسم» سنرى كيف يمكن استخدام مكتبة Scikit- Learn‏ بايثون لتنفيذ خوارزمية 
.KNN‏ 
مجموعة البيانات 
نستخدم مجموعة iris!‏ الشهيرة KNN JE‏ الخاص Ly‏ تحتوي مجموعة البيانات هذه على 
أربع ميزات: عرض السيبال وطول السيبال وعرض البتلة وطول البتلة. هذه هي خصائص أنواع 
معينة من نبات السوسن. المهمة هي التنبؤ بالفئة التي تنتمي إليها هذه النباتات. هناك ثلاث ols‏ 
في مجموعة البيانات: Iris-setosa‏ و Iris- versicolor‏ و -Iris—virginica‏ 
استيراد المكتبات 

In H: import numpy as np 


import matplotlib.pyplot as plt 
import pandas as pd 


| https://archive.ics.uci.edu/ml/datasets/Iris 
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استيراد مجموعة البيانات 
لإدخال مجموعة البيانات وتحميلها بتنسيق بيانات pandas‏ « قم بتشغيل الكود التالي: 


In É]: url = "https://archive.ics.uci.edu/ml/machine-learning- 
databases/iris/iris.data" 


# Assign colum names to the dataset 
names = ['sepal-length', 'sepal-width', 'petal-length', 
'petal-width', 'Class'| 


# Read dataset to pandas dataframe 
dataset = pd.read_csv(url, names=names) 


لمعرفة الشكل الذي تبدو عليه مجموعة البيانات Go‏ » قم بتشغيل الأمر التالي: 


In [38]: 
£ dataset.head(8) 


يؤدي تنفيذ الكود أعلاه إلى عرض الصفوف الثمانية الأولى من مجموعة البيانات كما هو موضح 


فى الصفحة التالية: 
sepal-length sepal-width petal-length petal-width Class‏ 
lris-setosa‏ 0.2 14 35 5.1 0 
lris-setosa‏ 0.2 14 30 49 1 
lris-setosa‏ 0.2 1.3 32 47 2 
lris-setosa‏ 0.2 15 3.1 46 3 
lris-setosa‏ 0.2 14 3.6 5.0 4 
lris-setosa‏ 0.4 17 3.9 54 5 
lris-setosa‏ 0.3 14 34 4.6 6 
lris-setosa‏ 0.2 1.5 34 50 7 
المعالجة الاولية 
تتمثل الخطوة التالية في تقسيم مجموعة البيانات إلى سماتها وعلاماتها. استخدم الكود التالي 


In [4 X= dataset.iloc[:, :-1].values 
y = dataset.iloc[:, 4].values 
يحتوي المتغير × على الأعمدة الأربعة الأولى من مجموعة البيانات (أي السمات) بينما يحتوي‎ 
على التصنيفات.‎ y 
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تقسيم مجموع البيانات 
في الخطوة التالية > سنقسم مجموعة البيانات الخاصة بنا إلى قسمين € تدريبي وتجريبي e‏ مما 
يمنحنا فكرة أفضل عن LAS‏ عمل الخوارزمية في المرحلة التجريبية. بهذه الطريقة . يتم اختبار 
ia Su‏ الخاصة ge by‏ بيانات قير Ad s‏ 
لتقسيم البيانات إلى قسمين . تدريبي وتجريبي . قم بتشغيل الكود التالي: 
In [| from sklearn.model selection import train, test split‏ 


X train, X test, y train, y test = train test, split(X, y, 
test size =0.25, random. state-42) 


يقسم الكود أعلاه مجموعة البيانات إلى 75/ بيانات تعليمية و 125 بيانات تجريبية. هذا يعني 
أنه من إجمالى 150 سجلاً c‏ ستشمل مجموعة التدريب 112 سجلاً وستتضمن مجموعة الاختبار 
Sel. 8‏ 
In [6: X train.shape‏ 
Out [6]: (112, 4)‏ 
In [7 X test.shape‏ 
Out [7]: (38, 4)‏ 
في الكود السابق . يشير الرقم 4 إلى عدد السمات. 
تحجيم الميزة 
من الأفضل دائمًا تحجيم الميزات قبل إجراء أي تنبؤات واقعية. الكود التالي يحجم الميزات: 


In H]: from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
scaler.fit(X train) 


X train = scaler.transform(X train) 
X test — scaler.transform(X test) 


التدريب والتنبؤ 
يعد تعلم خوارزمية KNN‏ والتنبؤ بها أمرًا سهلاً للغاية عند استخدام :Scikit- Learn‏ 


In H]: from sklearn.neighbors import KNeighborsClassifier 
classifier = KNeighborsClassifier(n_neighbors=5) 
classifier.fit(X train, y train) 
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تتمثل الخطوة الأولى فى استيراد كلاس KNeighboursClassifier‏ من مكتبة 
.sklearn. neighbours‏ في السطر الثاني . تتم تهيئة هذه الفئة بمعامل « neigbours‏ 11 . وهي 
قيمة . لقد تم بالفعل ذكر أنه لا توجد قيمة مثالية ل K‏ ويتم اختيارها بعد الاختبار والتقييم. 
ومع US‏ لتبدأ ء القيم الخمس الأكثر شيوعًا المستخدمة في خوارزمية KNN‏ 
الخطوة الأخيرة هي التنبؤ بالنموذج المبني على بياناتنا التجريبية. للقيام بذلك » قم بتشغيل 
التعليمات البرمجية التالية: 
In H: y pred = classifier.predict(X test)‏ 


تقييم الخوارزمية 
—- الخوارزمية e‏ كما ذكرنا GU‏ > فإن مصفوفة الارتباك والدقة والاستدعاء ودرجة ۴1 هي 
المعايير Yi‏ كثر استخدامًا. يمكن استخدام Confusion matrix‏ و classification report‏ 
لحساب هذه المعايير. انظر الكود أدناه: 
In DL from sklearn.metrics import classification, report,‏ 
confusion matrix‏ 


print(confusion, matrix(y test, y. pred)) 
print(classification, report(y. test, y pred)) 


Out [8: [[15 0 0] 


precision recall f1-score support 


Iris-setosa 1.00 1.00 1.00 15 
Iris-versicolor 1.00 1.00 1.00 11 
Iris-virginica 1.00 1.00 1.00 12 


accuracy 1.00 38 

macro avg 1.00 1.00 1.00 38 

weighted avg 500 100 ceo 38‏ 
تظهر النتائج أن نموذج KNN‏ الخاص بنا قادر على تصنيف جميع السجلات ال 38 في مجموعة 
الاختبار بدقة 100/ » وهو أمر ممتاز. على الرغم من أن الخوارزمية عملت جيدا مع مجموعة 
البيانات هذه » فلا تتوقع أن تكون هذه النتائج هي نفسها لجميع مجموعات البيانات !! 
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مقارنة معدل las‏ بقيمة K‏ 


في قسم التدريب والتنبؤء قلنا أنه لا توجد طريقة لمعرفة قيمة K‏ مسبقاً التي ستعمل بشكل hail‏ 
في الخطوة الأولى. اخترنا بشكل عشوائي 5 كقيمة K‏ وصادف أن تكون دقيقة بنسبة 100/. 
تتمثل إحدى طرق مساعدتك في العثور على أفضل قيمة ل × في رسم قيمة K‏ ومعدل الخطأ 


المرتبط بمجموعة البيانات. 


لذلك » في هذا القسم . نرسم الخطأ المتوسط للقيم المتوقعة لمجموعة الاختبار لجميع قيم 
K‏ بين 1 و 30. في هذا الصدد . نحسب أولاً متوسط الخطأ لجميع القيم المتوقعة التي يختلف 


In 


[1]: 


فيها K‏ من 1 إلى 30. قم بتشغيل التعليمات البرمجية التالية: 
error = []‏ 


# Calculating error for K values between 1 and 40 
for 11n range(1, 40): 
knn = KNeighborsClassifier(n neighbors-i) 
knn.fit(X. train, y. train) 
pred i- knn.predict(X test) 
error.append(np.mean(pred 1 != y. test)) 


يقوم الكود أعلاه بتنفيذ حلقة من 1 إلى 30 وفي كل تكرار يتم حساب متوسط الخطأ للقيم 


المتوقعة لمجموعة الاختبار وتضاف النتيجة إلى قائمة الأخطاء.. 


الخطوة التالية هي رسم قيم الخطأ مقابل قيم LK‏ قم بتشغيل التعليمات البرمجية التالية لإنشاء 


In 


[1]: 


plt.figure(figsize=(12, 6)) 

plt.plot(range(1, 30), error, color-'red', 

linestyle='dashed', marker-'o', 
markerfacecolor-'blue', markersize=10) 

plt.title(Error Rate K Value") 

plt.xlabel('‘K Value") 

plt.ylabel('Mean Error") 


مخطط الإخراج على النحو التالي: 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 
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من خلال هذا الرسم البياني الناتج يمكننا رؤية أفضل وأسوأ قيم K‏ المحددة. يوصى باختبار 
النموذج بقيم مختلفة ل K‏ لمعرفة كيف يؤثر على دقة التنبؤات. 


شعاع الدعم الآلى 


شعاع الدعم SY‏ (شبكة المتجهات (sell‏ أو SVMS!‏ باختصار » هي مجموعة فرعية من 
طرق التعلم المستخدمة للتصنيف والانحدار واكتشاف النقاط البعيدة. تختلف شبكات 
المتجهات الداعمة عن خوارزميات التصنيف الأخرى من حيث أنها تحدد حدود القرار التي تزيد 
المسافة من أقرب نقاط البيانات لجميع الفتات. يسمى حد القرار الذي تم إنشاؤه اا e‏ 
شعاع الدعم الآلي بالهامش الأقصى أو الهامش الأقصى للصفحة. يعمل مصنف SVM‏ الخطي 
البسيط عن طريق إنشاء خط مستقيم (فاصل) بين فتتين. هذا يعني أن جميع نقاط البيانات على 
جانب واحد من الخط تمثل ii‏ وأن نقاط البيانات على الجانب الآخر من الخط تمثل فئة مختلفة. 
من الواضح بشكل بديهي أنه يمكن تحديد عدد لا حصر له من الخطوط. ما يجعل خوارزمية 
SVM‏ الخطية أفضل من بعض الخوارزميات الأخرى . مثل كي- أقرب جارء هو أنها تختار 
أفضل خط لتصنيف نقاط البيانات الخاصة بك. 
يساعد المثال ثنائي الأبعاد على فهم هذا بشكل أفضل. افترض أن لديك عدة نقاط بيانات. 
تحاول فرز نقاط البيانات هذه حسب الفئة التي يجب وضعها فيها . لكنك لا تريد أن يكون لديك 
أي بيانات في الفئة الخطأ. ida‏ يك Lie o. aio poh cal a d slo] dole il‏ 


الأخرى في البيانات. لذا فإن أقرب نقطتي بيانات تعطيك متجهات الدعم التي ستستخدمها 
للعثور على هذا الخط. 


! Support-vector machine 
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النموذج الأساسى والنموذج المزدوج (الثانوى) 


يمكن تعريف مشاكل التحسين بطريقتين مختلفتين: المشكلة الأساسية والمشكلة المزدوجة. 
ميزة هذا هو أنه في بعض الأحيان يكون حل مشكلة مزدوجة أسهل من حل المشكلة الأصلية. 
ومع ذلك . قد تكون الحلول للمشكلة الأساسية والمشكلة المزدوجة مختلفة » ولكن في ظروف 
معينة » فإن الحلول متساوية. يمكن Cal‏ تعريف شبكة المتجهات الداعمة على أنها مزدوجة 
واساسية » نظرًا IBY‏ مشكلة تحسين. يحصل كلاهما على نفس نتائج التحسين » لكن تختلف 
طريقة تلقيهما Goes!‏ كبيرًا. قبل أن نتعمق في الرياضيات دعني أخبرك أيها يتم استخدامه 
ومتى. يفضل النموذج الاساسي عندما لا نحتاج إلى تطبيق خدعة الكيرنل" على البيانات وتكون 
مجموعة البيانات كبيرة » لكن أبعاد كل نقطة بيانات صغيرة. على العكس من ذلك e‏ عندما تكون 
البيانات كبيرة ونحتاج إلى استخدام خدعة النواة » يُفضل النموذج المزدوج. 

شبكة المتجهات الداعمة ذات الهامش الصلب 

بالنظر إلى مجموعة التدريب D = (G6, V1), (c, ya), (Xm Ym))‏ حيث € Ym‏ 
(1+,1-]الفكرة الرئيسية شعاع الدعم JY‏ هي تستخدم مجموعة التدريب D‏ للعثور على 
مستو GE‏ فاصل كبير في مساحة العينة يمكنه فصل العينات من OLA‏ المختلفة. ومع US‏ 
قد يكون هناك عدة مجموعات فاصلة ilaga‏ كما هو موضح في الشكل 4-6. ومن ثم . أي 


واحد ینبغی اختياره؟ 


T2 


O 
الشكل 4-6 يمكن لأكثر من مستو فائق رئيسي فصل العينات التدريبية.‎ 


1 Kernel trick 
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نحتاج إلى تحديد العنصر في منتصف الفتتين , الأحمر ‏ من المستو الفائق للفصل (الشكل 
oY .)5-6‏ هذا الفاصل لديه أفضل "حد الخطأ المسموح به" " لانحراف البيانات المحلية. على 
سبيل المثال» قد تكون العينات غير الموجودة في مجموعة التدريب قريبة من حد القرار بسبب 
الضوضاء أو قيود مجموعة التدريب. نتيجة لذلك > فإن العديد من المستودات الفائقة للفصل 
التي تعمل بشكل جيد في مجموعة التدريب سترتكب أخطاء ‏ بينما تقل احتمالية تأثر الفواصل 
الحمراء. بعبارة أخرى » تتمتع هذه الصفحة الفاصلة بأقوى قدرة تعميم في التصنيف. 

يمكن تمثيل المستوى الفائق للفصل في فضاء العينة على أنها الدالة الخطية التالية: 

w'x+b=0 


حيث Wa)‏ ز... (Wy Wa;‏ = ۷هو متجه طبيعي يتحكم في اتجاه المستو الفائق و b‏ هو 
الانحياز الذي يتحكم في المسافة بين المستو GW‏ والأصل. يحدد المتجه الطبيعي W‏ والتحيز 
b‏ والمستوى الفائق للفصل ٠‏ ويشار إليه بالرمز W, b‏ يمكن كتابة المسافة من أي نقطة X‏ في 
مساحة العينة إلى المستو الفائق W, b‏ على النحو التالي: 


الشكل 5-6 المتجهات الداعمة والهامش 


افترض أن المستو الفائق W, b‏ يمكنه تصنيف الأمثلة التدريبية بشكل صحيح » أي بالنسبة ل 
(xp y) ED‏ › يوجد 0 < +b‏ ;× "س حيث 1+ = wxi +b < 0o yi‏ عندما = yi‏ 
1- اذاكان لدينا: 


1 tolerance 
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wî x; + b 2 t1, yi 
wT x; T b < —1yi 


)1-6( ,1+ 
1ك 


كما هو مبين في الشكل 5-6 « تم إنشاء المعادلة في (1-6) لنقاط العينة القريبة من المستو 
الفائق. تسمى هذه النقاط متجهات داعمة. مجموع مسافات متجهين داعمين من فئات مختلفة 
إلى المستو الفائق مساوي 
2 


Y = To 
اننا‎ 


يسمى الهامش. 
العثور على المستو الفاصل ذات الحد الأقصى للهامش يكافئ إيجاد المعاملات W‏ و 8 التى 
تزيد Gi,‏ للقيود )6-1( « usi‏ 


2 (2-6) 


i= 1,2, ..., m yi(wT x; + b) < 1 حيث ان‎ 


يمكن تحسين الهامش عن طريق تكبير WII?‏ وهو ما يعادل تصغير NWI]?‏ ومن «e‏ 
يمكننا إعادة كتابة المعادلة (2-6): 
f 1 (3.6)‏ 
minw,» 5 llwll"‏ 


حيث ان 1 < .i = 1,2, ..., msy(w'x--5)‏ 
هذا النموذج الاساسي يسمى آلة متجه الدعم. يمكننا حل هذه المشكلة بإدخال معاملات لاغرانج 
0 وتحويلها إلى مشكلة مزدوجة: 


n 
1 
L(w,b,a) = Ww — 2. a;(1 — yi(w? x; + b)) 
i=1 


تسمى دالة لاغرانج هذه بآلة متجه الدعم تكون فيها معاملاتط و w‏ للنموذج و 


D$ W »مشتق من‎ = (03; Ami Om) 


m 
Vy L(w,b, a) = 0 > w = 3 iY Xi 
i=1 


m 
V, L(w, b,a) 202 X av, =0 
i=1 


استبدالهم في L(w, b, a)‏ يزيل W‏ منه » ونحصل على مشكلة آلة متجهات الدعم المزدوجة: 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات ps‏ 


m 1 m m 
MAXg 2. a; — =), Xa jj 1717/31 Xj 
i j=l 


=1 i=1 
m 
S.t. > ay; = 0 
i-1 
a; > 0,1: = 12 


من خلال حل مشكلة التحسين هذه . يتم الحصول على © وبالتالي W‏ و -b‏ ومن ثم يمكننا كتابة 
التصنيف النهائي أو دالة القرار على النحو التالي: 
m‏ 


f )x( = sign[). Qj yx x + b] 


1-1 


حيث تكون sign (x)‏ دالة للإشارة. 


حل المشكلات المزدوجة أسهل » لأنه يحتوي فقط على معام ل لاغرانج. 


aain ai‏ الدعم للبيانات غير الخطية القابلة للفصل 
حتى الآن » يُفترض أن الأمثلة التدريبية LG‏ للفصل خطيًا c‏ مما يعنى أن هناك مستويات ABE‏ 
يمكنها تصنيف جميع الأمثلة التدريبية بشكل صحيح. ومع US‏ فإن هذا الافتراض WE‏ ما 
يكون غير صحيح في الممارسة. في الواقع c‏ معظم المشاكل غير خطية ولا يمكن استخدام SVM‏ 
الخطي GLI!‏ لحلها. في هذه الحالة ‏ ما العمل لحلها؟ من الناحية المثالية » نحتاج إلى إيجاد 
تحويل غير خطي P‏ بحيث يمكن رسم البيانات في مساحة ميزة عالية الأبعاد حيث يكون 
التصنيف الخطي ممكنًا. 

انظر الشكل 6-6. لا يمكن فصل الفئات خطيًا باستخدام متغيرين للتنبؤ. تضيف خوارزمية 
آلة المتجه الداعم Le‏ إضافيًا للبيانات . بحيث يمكن للمستو الفائق الخطي فصل الفئات في 
هذه المساحة الجديدة والأبعاد الأعلى. يمكننا أن نفكر في هذا على أنه نوع من التحول أو امتداد 
لمساحة الميزة. هذا البعد الإضافي يسمى الكيرنل. الكيرنل هي طريقة لحل المشكلات غير 
الخطية بمساعدة المصنفات الخطية. هذه الفكرة تسمى خدعة SJ!‏ نل -(kernel trick),‏ 


242 
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البيانات مع الكيرنل البيانات الاصلية 


o 3 

©© لايوجد فاصل قرار‎ a. 

= خطي جيد a‏ ى »© m‏ 

o 9 o 
e © 
AS 
QS 
X1 مستو فائق قرار خطي‎ Be 
X1 


الشكل 6-6. تضيف خوارزمية ud SVM‏ إضافيًا للفصل الخطي للبيانات.الفئات الموجودة في 
البيانات الأصلية غير قابلة للفصل خطيًا. تضيف خوارزمية SVM‏ بعد إضافيًا e‏ في مساحة ميزة ثنائية 
الأبعاد ‏ يمكن تمثيلها على أنها "uas"‏ البيانات إلى البعد الثالث. يسمح هذا البعد الإضافي بفصل البيانات 


الآن c‏ السؤال هو كيف تجد الخوارزمية هذا النواة الجديدة؟ تستخدم الإجابة تحويلًا رياضيًا 
للبيانات يسمى دالة الكيرنل. هناك العديد من الدوال الأساسية للاختيار من بينها .كل منها يطبق 
تحويلًا مختلقاً للبيانات ومناسبًا لإيجاد حدود القرار الخطي لمواقف مختلفة. يوضح الشكل 
7-6 أمثلة على المواقف التى يمكن فيها لبعض دوال الكيرنل الشائعة فصل البيانات غير الخطية 
القابلة للفصل. l‏ 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


متعدد الحدود درجة ثالثة متعدد الحدود درجة ثانية خطى 


الشكل 7-6. أمثلة على دوال الكيرنل 
als‏ النواة (الكيرنل) 
إذا كانت P(x)‏ تمثل الميزة المعينة ل × ٠‏ فيمكن التعبير عن نموذج المستو الفائق للفصل في 
مساحة الميزة على النحو التالي: 


f(x) =w" p(x) +b 
(36) مشابهة‎ Doles هما معاملات النموذج. لدينا‎ b و‎ W حيث‎ 


"(o 
mins, 5 lll 


حيث 1 < i=1,2,...,m5yi(w' p(x) + b)‏ 
كما أن مشكلتها المزدوجة تساوي: 


m 1 m m (4-6) 
max, ) a; — PD jj ViVi (xi )eg) 
i=1 i=1 j=1 


m 


S.t. X ai = 0, 


i=1 
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a, > 0,1 — 12, ..,m. 
وهو حاصل ضرب الضرب الداخلي‎ «p (xj) qx; ) يتضمن حل المعادلة )4-6( حساب‎ 
مساحة الميزة المعينة يمكن أن تكون كبيرة جد‎ OV و 25 نظرًا‎ Xj لمتجهات الخاصية المعينة‎ 
مباشرة أمرًا صعمًا. لتجنب هذه‎ qx) qx; ) cU ما يكون‎ Ou 2 أو حتى غير محدودة‎ 

المشكلة c‏ نفترض وجود الدالة التالية: 


k(x xı) = (p), 9(x;)) = (x: )009) 


والتي تنص على أنه يمكن حساب الضرب الداخلي ل Xj‏ و Xj‏ في فضاء الميزة في مساحة العينة 
باستخدام الدالة (0,0)/. مع هذه الدالة » لم نعد بحاجة إلى حساب الضرب الداخلي في مساحة 
الميزة. ومن ثم يمكننا إعادة كتابة المعادلة )4-6( على النحو التالي: 


m m m 
1 
maXg >: ai — 22. 2: aja; yiyjk(xi, xj) 
i=1 1-1 j=1 
m 
S.t. 3 ay; = 0, 
i-1 


سيتعين علينا حل هذه المعادلة: 


f(x) = w'e(x) +b 


m 


= sign? a yp Ga y Q0 + b] 
i=1 


m 
= sign[ Y qi yik(xi, xj) + b] 
i=1 

حيث 5,55 الدالة K(0,0)‏ هي النواة. 
نظرًا GY‏ نريد أن تكون العينات قابلة للفصل خطيًا في مساحة الميزة c‏ فإن جودة مساحة الميزة 
أمر بالغ الأهمية لأداء OW‏ متجهات الدعم. ومع ذلك e‏ لا نعرف أي دوال كيرنل جيدة . لأننا لا 
نعرف تعيين السمات. لذلك » فإن اختيار النواة او الكيرنل هو أكبر عدم يقين لآلات متجهات 
الدعم. تقوم النواة الضعيفة بتعيين العينات إلى مساحة ميزة ضعيفة » مما يؤدي إلى ضعف الأداء. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


بمعن I‏ » لا يتم تعلم نوع دالة النواة لمشكلة dre‏ من البيانات ويجب علينا تحديدها. 
ومن ثم » فان اختيار الدالة الأساسية هو معامل فائق. نتيجة لذلك » فإن أفضل طريقة لاختيار 
الدالة الأساسية ذات الأداء الأفضل هي ضبط المعامل الفائق. 


انواع دوال الكيرنل 
فيما يلي قائمة ببعض الدوال الأساسية المستخدمة في :SVM‏ 


" الكيرنل الخطي. لنفترض أن لدينا متجهين يسميان Xi‏ و e Xj‏ يتم تعريف الكيرنل الخطية 
بواسطة الضرب الداخلى لهذين المتجهين: 
k(x Xj) = Xi. Xj‏ 
" الكيرنل كثيرة الحدود. يتم تعريف نواة كثير الحدود بالمعادلة التالية: 
k(x Xj) = (xi. xj)‏ 
حيث 0 هي درجة كثيرة الحدود. 
" كيرنل غاوسى. معادلة الكيرنل الغاوسية ھی كما يلى: 
2 
lx: — as]‏ 
k(xi, xj) = exp (— 29 )‏ 
يلعب سيجما المعطى دورًا مهما جدا في دوال الكيرنل الغاوسية ويجب تعديله بعناية 
Gas‏ للمشكلة. 
" كيرنل لابلاسيا. معادلة كيرنل لابلاسيا هي كما يلي: 
lx: -x|‏ 
k(xi, xj) — exp (— 5-2‏ 
m‏ كيرنل السطح الزائدي او سيكمويد. تستخدم هذه النواة في الغالب في الشبكات العصبية 
وتكون معادلتها على النحو التالي: 
k(x;,x;) = tanh (axTy + c)‏ 
لماذا تكتيك الكيرنل fap‏ 
كما ذكرنا سابقًا والموضح في الشكل 56 إذا وجدنا طريقة لتعيين البيانات من الفضاء ثنائي 
الأبعاد إلى الفضاء ثلاثى الأبعاد . فيمكننا إيجاد حد قرار يمكنه تصنيف الفتات المختلفة. تتمثل 
الفكرة الأولى لحل هذه المشكلة حول عملية تحويل البيانات في تعيين جميع نقاط البيانات إلى 
بعد أعلى (فى هذه الحالة . 3 أبعاد) . والعثور على الحدود . والتصنيف. الفكرة تبدو صحيحة 
GLS‏ ومع ذلك c‏ مع زيادة حجم البيانات » تصبح الحسابات في تلك المساحة أكبر بكثير. هذا 
هو المكان الذي تكون فيه تكنيك الكيرنل فعالة. GY‏ يسمح لنا بالعمل في مساحة الميزة الرئيسية 


الفصل السادس: التعلم الخاضع للاشراف 247 


دون حساب إحداثيات البيانات في مساحة الأبعاد الأعلى. لفهم هذا بشكل أفضل e‏ دعنا Ab‏ 
نظرة على مثال: 
x = ) X2, X3)"‏ 
y = (v Y» ys)?‏ 
هنا X‏ و y‏ هما نقطتا بيانات فى مساحة ثلاثية الأبعاد. افترض أنه يجب تعيين X‏ و y‏ فى فضاء 
9 أبعاد. ومن ثم « يتعين علينا القيام بالحسابات التالية؛ l‏ 
P(X) = (X1, X1X2, X1X3, X21, AZ, X2X3, X3X4, X3X2, X3)"‏ 


PCY) = (V, YY 21 V1 V9 V2V 1» Y3, V2V 31 VaV 1 Y3 Y2: VS) 


3 


p(x)" p(y) = > XiXjyiyj 


ij-1 

للوصول إلى النتيجة النهائية. التعقيد الحسابى » فى هذه الحالة . هو (n7)‏ 0. الآن إذا استخدمنا 

دالة الكيرنل K (x, y)‏ بدلاً من إجراء حسابات معقدة فى مساحة 9 أبعاد . من خلال حساب 

الضرب الداخلي لترانسبوس X‏ و ل نحصل على نفس النتيجة في الفضاء ثلاثي الأبعاد مثل 
k(x, y) = (x^ y»‏ 


= (x1yi + X2y2 + X33)" 
3 


= 2. XiXjyiyj 


ij=1 
لفهم هذه المشكلة بشكل أفضل » ضع في اعتبارك المثال العددي التالي:‎ 
إذاكان لدينا نقطتان في الفضاء ثلاثي الأبعاد على النحو التالي:‎ 
x — (2,3,4) 
y = (3,45) 
PV) و‎ © P(X) أولاً نحسب‎ 
p(2, 3,4) = (4, 6, 8,6, 9, 12, 8, 12, 16) 
(3,4,5) = (9,12, 15, 12, 16, 20, 15, 20, 25) 


p(x). ply) = 9(2,3, 4). 9(3,4, 5) 
(36 + 72 + 120 + 72 +144 + 240 + 120 + 240 + 400) = 1444 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


والحساب k(x, y)‏ يساوي: 


k(x,y) = (2*3 + 3+4 + 4*5)‏ 
7 + 12 + 6(= 
38 * 38 = 
1444 = 
كما رأينا ء كلاهما يعطي نفس النتيجة . لكن طريقة استخدام الكيرنل تتطلب حسابًا أقل. 


بشكل أساسى lo.‏ تفعله بالنسبة W‏ هو توفير طريقة أكثر كفاءة وأقل 


فعالية من حيث التكلفة Jugal‏ البيانات إلى أبعاد أعلى. Góg‏ لذلك . لا poids‏ استخدام 
تكتيكات الكيرنل على خوارزمية :SVM‏ أى or‏ حسابية تتضمن الضرب الداخلى (x,y)‏ 
يمكن أن تستخدم تكتيكات الكيرنل. 


all‏ متجهات الدعم ذات الهامش المرن 


حتى OW‏ افترضنا أن العينات قابلة للفصل خطيًا في مساحة العينة أو مساحة الميزة. ومع ذلك 

غالبًا ما يكون من الصعب العثور على دالة أساسية مناسبة للفصل الخطي لعينات التدريب في 

مساحة الميزة. يمكن أن يُعزى ذلك إلى حقيقة أن الخصائص التي نحصل عليها من البيانات لا 

تحتوي dale‏ على معلومات كافية للتمكن من فصل الفئات بوضوح lia)‏ هو الحال dole‏ في 

العديد من تطبيقات العالم الحقيقي). حتى لو وجدنا مثل هذه الدالة الأساسية e‏ فمن الصعب 
معرفة ما إذا كانت هذه النتيجة -overfitting‏ 

تتمثل إحدى طرق تقليل هذه الحالة في السماح ل SVM‏ بارتكاب عدد معين من الأخطاء 

في العينات بحيث تظل النقاط الأخرى مصنفة بشكل صحيح. يتم تنفيذ هذه الفكرة بمفهوم 

الهامش المرن. يوضح الشكل 8-6 هذه الفكرة. باختصار » الدافع لاستخدام هذه الطريقة 

لسببين: 

1. كما ذكرنا سابقا » تحتوي معظم تطبيقات العالم الحقيقي على بيانات لا يمكن 

Cal .2‏ > في حالات نادرة حيث تكون البيانات قابلة للفصل خطيًا » قد لا نرغب في 

اختيار حد القرار الذي يفصل البيانات تمامًا. بمعنى آخر . نريد تجنب 

is .Overfitting‏ الشكل 9-6 « على سبيل المثال. هنا تفصل حدود القرار 

الحمراء GLS‏ بين جميع النقاط التدريبية. ومع ذلك . هل من الجيد o‏ أن يكون 

لديك حدود قرار بهامش منخفض؟ هل تعتقد أن حدود مثل هذا القرار تمتد بشكل 

جيد إلى البيانات غير المرئية؟ الجواب لا. يكون لحد القرار الأخضر هامش أوسع 
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يسمح له بالتعميم بشكل أفضل على البيانات غير المرئية. وبالتالي e‏ فإن آلة 
المتجهات الداعمة ذات الحافة المرنة تساعد على تجنب مشكلة -Overfitting‏ 


O T1 


الشكل 9-6 أفضل حدود القرار؟ أخضر أو أحمر (متقطع)؟ 

بتعبير أدق . فإن SVM‏ (المعادلة 1-6( الذي تم تقديمه مسبقًا يخضع لقيود . مما يعني أن 
الهامش الصلب يجب أن يصنف جميع العينات بشكل صحيح وبدون أخطاء. ومع ذلك e‏ فإن 
الهامش المرن يسمح بانتهاك هذا التقييد (عن طريق ارتكاب خطأ في حالات متعددة). بالطبع» 
يجب أن يقلل الهامش المرن من عدد الحالات التي تنتهك القيد . مع زيادة الهامش إلى الحد 
الأقصى. ومن ثم . يمكن كتابة هدف التحسين على النحو التالي: 
)6-6 ` 1 

min, p z lwll? + C) forix +b)-1) 
i=1 
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حيث 0 < C‏ ثابت و £o‏ دالة الخطأ قدرها 0.1. هنا ء € هو معامل فائق تحدد المقايضة بين 
تعظيم الهوامش وتقليل الأخطاء. عندما تكون صغيرة جد . يتم إعطاء أهمية أقل لأخطاء 
التصنيف ويكون التركيز أكثر على تعظيم الهوامش. بينما عندما تكون كبيرة بشكل لا نهاتي . 
يكون التركيز أكثر على تجنب التشخيص الخاطئ على حساب الحفاظ على الهامش صغيرًا. 
بمعنى آخر » عندما تكون كبيرة بشكل لا نهائي ‏ فإنها تجبر جميع العينات على اتباع القيد « 
وهو ما UT Joly‏ متجه داعمة old‏ هامش صلب (المعادلة 3-6). 

يصعب حل المعادلة (5-6) مباشرة. oY‏ 0.1 لها خصائص رياضية ضعيفة » أي أنها غير 
محدبة ومتقطعة. لذلك UU c‏ ما نستبدل 0.1 ببعض دوال الخطأ الأخرى التي لها خصائص 
رياضية جيدة (على سبيل المثال . محدب ومستمر). يوضح الشكل 10-6 ثلاث دوال خطأ 
شائعة: 


fninge(Z) = max(0,1 — z) هينج:‎ iks = 
fexp(Z) = exp(—z) خطأ أسي:‎ 2 
£iog(Z) = log(1 + exp )-2(( خطأ لوجستي:‎ = 


Chinge(Z) = max(0, 1 -= 2) 


log(z) = log(1 + exp(—2))« 


الشكل 10-6. دوال الخطأ البديلة ل Loji‏ 
عند استخدام دالة HLS‏ هينج» يتم تحويل المعادلة 5-6 على النحو التالي: 


n 
1 (6-6) 
min, p 5 lw? + cy max(0,1 — yj(w? x; + b)) 


1-1 


بادخال المتغير المساعد 0 < ;86« تتم إعادة GS‏ المعادلة 6-6 النحو التال : 
بإدخال المتغير رغ » تتم إعادة كتاء على Je pull‏ 


"TP 
min,» wll + © > ê, 
i=1 
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بهذه الطريقة £ - 1 < i = 1,2, M 3 £& < 0 yi (WTOC) + b)‏ تستخدم هذه 
المعادلة بشكل شائع OY‏ المتجهات الداعمة ذات الهامش المرن. في هذه المعادلة » يحتوي 
كل عينة على متغير مساعد مقابل يشير إلى درجة انتهاك القيد. 


تتحكم عبار C‏ فى Hla‏ الهدف فى التوازن بين تعظيم الهوامش والتأكد من أن هوامش 


JJ) overfitting poacy SVM تنظيميًا يخبر‎ uit الإمكان. يمنحنا هذا‎ Ja8 ale shil 


تتلاءم تمامًا مع البیانات) Gia‏ إذا كانت Alia‏ 048( بعيدة فى مجموعة البيانات. 
الهوامش الصلبة ام المرنة؟ 


يكمن استخدام الهوامش الصلبة أو المرنة في آلة المتجهات الداعمة في دقة البيانات. إذا كانت 
بياناتنا قابلة للفصل خطيًا » فإننا نذهب إلى الحافة الصلبة. ومع ذلك e‏ في JB‏ وجود نقاط 
البيانات التي تجعل من المستحيل العثور على التصنيف الخطي . نحتاج إلى أن نكون أكثر 
تساهلاً ونسمح بتصنيف بعض نقاط البيانات بشكل غير صحيح. بمعنى آخر » نستخدم هوامش 
مرنه. 

في بعض ole‏ تكون البيانات قابلة للفصل Gl‏ . لكن الهامش صغير De‏ بحيث يكون 
ET‏ عرضة للضبط الزائد الحساسية المفرطة للعناصر البعيدة. ومن ثم . في هذه الحالة ء 
للمساعدة في تصميم النموذج بشكل أفضل « يمكننا تحديد هامش أكبر باستخدام SVM‏ ذات 
الهامش المرن. 

وتجد ر الإشارة إل ىأن مشاكل العالم الحقيقي Y UU‏ يمكن lebai‏ خطيًا » لذلك لا يمكنك 
استخدام الهوامش الصلية في هذه المشكلات. ومع ذلك . إذا وجدت مخططا لنواة يفصل 
البيانات المحولة خطيًا ‏ يمكنك استخدام الهوامش الصلبة. 


معاملات ali‏ المتجهات الداعمة 


قبل تدريب النماذج . Ule‏ ضبط المعاملات الفائقة. تعد المعاملات الفائقة ضرورية لبناء نماذج 
قوية ودقيقة. إنها تساعدنا في إيجاد التوازن بين التحيز والتباين وبالتالي تمنع النموذج من الضبط 
الزائد أو الناقص. عند إنشاء نموذج قائم على SVM‏ نحتاج Cad‏ إلى تكوين كميات كبيرة من 
المعاملات الفائقة c‏ والتي يتم سرد أهمها أدناه.: 
© معامل الكيرنل (شكل 7-6). 
© معامل الدرجة الذي يتحكم في مدى مرونة حدود القرار للنواة متعددة الحدود (الشكل 
6-7). كلما زادت درجة تعددية الحدود . أصبحت حدود اتخاذ القرار أكثر مرونة 
LN PSP‏ ومع ذلك . من المحتمل أن يتسبب في زيادة -overfitting‏ 


N 
ol 
N 
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-6 معامل التكلفة أو 6 الذي يتحكم في كيفية الهامش "الهامش" أو "الناعم" (الشكل‎ e 


11). 
ل يتحكم معامل غاما في تأثير نقطة التدريب على موضع حدود القرار. يتم استخدام هذه 
المعامل الفائقة من خلال الدالة الأساسية للقاعدة الشعاعية. تشير قيم غاما المنخفضة 


إلى نصف قطر تشابه مرتفع e‏ مما يؤدي إلى المزيد من تجميع النقاط. بالنسبة لقيم غاما 
المرتفعة » يجب أن تكون النقاط قريبة De‏ من بعضها حتى يتم أخذها في الاعتبار في 
مجموعة (أو فئة). لذلك e‏ تميل النماذج ذات قيم غاما الكبيرة جدا إلى -overfitting‏ 
كلما كانت LE‏ أصغر » قل الاهتمام الذي سيتم توجيهه لكل حالة وكلما انخفضت حدود 
اتخاذ القرار (من المحتمل أن يؤدي ذلك إلى .(underfitting‏ يظهر تأثير غاما لنواة 
القاعدة الشعاعية الغاوسية في الجزء السفلي من الشكل 11-6 


الشكل 11-6. تاثير معاملات التكلفة وغاما. 
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معامل غاما ضد معامل C‏ 
بالنسبة للنواة الخطية » نحتاج فقط إلى تحسين المعلمة LC‏ ومع ذلك e‏ إذا أردنا استخدام نواة 
شعاعية e‏ فيجب تحسين كل من المعامل C‏ وغاما في وقت واحد. إذا كانت غاما كبيرة 2 فإن 
تأثير C‏ يكون Shes‏ إذا كانت LE‏ صغيرة » فإن © تؤثر على النموذج ؛ بالضبط كما AR‏ على 
النموذج الخطي. القيم النموذجية ل C‏ وغاما هي كما يلي. ومع ذلك » قد توجد بعض القيم 
المثلى اعتمادًا على التطبيق: 
LE > 10‏ < 0.0001 
C > 0‏ > 0.01 


مميزات آله المتجهات الداعمة: 
e‏ إنه فعال للغاية حتى مع البيانات الكبيرة. 
e‏ يمكن إدارة البيانات غير الخطية بشكل فعال باستخدام تكتيكات النواة. 
e‏ يمكن استخدامها لحل مشاكل التصنيف والانحدار. 
عيوب آله المتجهات الداعمة: 
e‏ علينا أن نختار نواة مثالية ل e SVM‏ وهو أمر صعب. 
ه فى مجموعة البيانات الكبيرة e‏ يستغرق التدريب ,3 أطول نسبيًا. 
e‏ آلة المتجه الداعمة ليست نموذجًا احتماليًا » لذلك لا يمكننا شرح التصنيف من حيث 
الاحتمالية. 
e‏ نموذج SVM‏ (مقارنة بشجرة القرار) يصعب فهمه وتفسيره. 
all‏ المتجه الداعم فى بايثون 
مجموعة البيانات 
بالنسبة إلى SVM‏ . على سبيل المثال » نستخدم مجموعة بيانات iris‏ كما في KNN Eze‏ 
استيراد المكتبات 


In H: import numpy as np 
import matplotlib.pyplot as plt 
import pandas as pd 
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استيراد مجموعة البيانات 


In É]: url = "https://archive.ics.uci.edu/ml/machine-learning- 
databases/iris/iris.data" 


# Assign colum names to the dataset 
names = ['sepal-length', 'sepal-width', 'petal-length', 
'petal-width', 'Class'| 


# Read dataset to pandas dataframe 
dataset = pd.read_csv(url, names-names) 


لعرض صفوف وأعمدة مجموعة البيانات » قم بتنفيذ الأمر التالي: 
dataset.shape‏ 
)15075( 


في الإخراج ترى القيمة )150.5( التي تشير إلى أن مجموعة البيانات بها 150 عينة مع 5 أعمدة. 
المعالجة المسبقة 
تتمثل الخطوة التالية في تقسيم مجموعة البيانات الخاصة بنا إلى سماتها وعلاماتها. استخدم 
الكود التالي للقيام بذلك: 

In [| X= dataset.iloc[:, :- values 

y = dataset.iloc[:, 4].values 

يحتوي المتغير × على الأعمدة الأربعة الأولى من مجموعة البيانات (أي السمات) بينما يحتوي 
y‏ على التصنيفات (العلامات). 


تقسيم مجموعه البيانات 
فى الخطوة التالية 2 سنقسم مجموعة البيانات الخاصة بنا إلى قسمين 2 تدريبية وتجريبية c‏ مما 
يمنحنا فكرة أفضل عن LAS‏ عمل الخوارزمية في المرحلة التجريبية. بهذه الطريقة . يتم اختبار 
الخوارزمية الخاصة بنا على بيانات غير مرئية. 

In [5]: from sklearn.model selection import train, test split 


X train, X test, y train, y test = train test split(X, y, 
test size =0.25, random, state-42) 
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يقسم الكود أعلاه مجموعة البيانات إلى 75/ بيانات تدريبية و 25/ بيانات تجريبية. هذا يعني 
أنه من إجمالى 150 سجلاً . ستشمل مجموعة التدريب 112 سجلاً وستتضمن مجموعة الاختبار 
Se. 8‏ 
In [6: X train.shape‏ 
Out [6]: (112, 4)‏ 
In [7 X test.shape‏ 
Out [7]: (38, 4)‏ 
في الكود السابق . يشير الرقم 4 إلى عدد السمات. 
تحجيم الميزة 
من الأفضل دائمًا تحجيم الميزات قبل إجراء أي تنبؤات واقعية. الكود StI‏ يحجم الميزات: 


In H]: from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
scaler.fit(X train) 


X train = scaler.transform(X train) 
X test — scaler.transform(X test) 


التدريب والتنبؤ 

SL‏ قمنا بتقسيم البيانات إلى مجموعات تدريبية وتجريبية ثم قمنا بتحجيم الخصائص على 
البيانات. حان الوقت OV‏ لتدريب SVM‏ على بيانات التدريب. يتضمن Scikit-Learn‏ مكتبة 
0 تتضمن فئات مضمنة لخوارزميات SVM‏ المختلفة. نظرًا UM‏ سنقوم بمهمة تصنيف › 
فإننا نستخدم A‏ مصنف المتجه الداعم » والذي تمت كتابته ك SVC‏ فی مكتبة -Scikit- Learn‏ 
تحتوي هذه الفئة على معامل من نوع kernel‏ في ما يلي » سوف نستخدم BIG‏ أنواع من النوى: 
b>‏ كاوسيان و Sigmoid‏ في طريقة fit‏ « يتم استدعاء كلاس SVC‏ لتعليم الخوارزمية على 
بيانات التدريب. قم بتنفيذ الكود التالي لتعليم الخوارزمية بنواة خطية: 

In H]: from sklearn.svm import SVC 


classifier = SVC(kernel='linear') 
classifier.fit(X train, y. train) 


الخطوة الأخيرة هي التنبؤ بالنموذج المبني على بياناتنا التجريبية. للقيام بذلك ١‏ قم بتنفية 
التعليمات البرمجية التالية: 


In H: y pred = classifier.predict(X. test) 
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تقييم الخوارزمية 
In B]: from sklearn.metrics import classification, report,‏ 
confusion matrix‏ 
print(confusion, matrix(y. test, y. pred))‏ 
print(classification, report(y test, y pred))‏ 


Out (7: [[15 0 0] 


precision recall fl-score support 


Iris-setosa 1.00 1.00 1.00 15 
Iris-versicolor 1.00 0.91 0.95 11 
Iris-virginica 0:92 100 0:96 12 


accuracy 0.97 38 
macro avg 0:97 ORO OS 38 
weighted avg 0.98 0.97 0.97 38 


التدريب بالنواة غاوسي والتنبؤ 


In H]: from sklearn.svm import SVC 
classifier = SVC(kernel-'rbf") 
classifier.fit(X train, y. train) 


In É]: y pred = classifier.predict(X test) 
تقييم الخوارزمية‎ 
In DL from sklearn.metrics import classification, report, 
confusion matrix 


print(confusion, matrix(y test, y. pred)) 
print(classification, report(y. test, y pred)) 


Out (7: [[15 0 0] 
1 


precision recall fl-score support 


Iris-setosa 1.00 1.00 1.00 15 
Iris-versicolor 1.00 1.00 1.00 iul 
Iris-virginica 1.00 1.00 1.00 12 


accuracy 1.00 38 
macro avg 1.00 1.00 1.00 38 
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weighted avg 1.00 1.00 1.00 


38 


التدريب بالنواة سيكمويد والتنبؤ 


In H]: from sklearn.svm import SVC 
classifier = SVC(kernel='sigmoid') 
classifier.fit(X train, y train) 

In H: y pred = classifier.predict(X. test) 


تقييم الخوارزمية 


In Dk from sklearn.metrics import classification, report, 


confusion matrix 
print(confusion, matrix(y test, y pred)) 
print(classification, report(y. test, y pred)) 


Out [7]: [[15 0 0] 
10 7 A 
[0 1 11]] 


precision recall fl-score support 


Iris-setosa 1.00 1.00 1.00 
Iris-versicolor 0.88 064 0.74 
Iris-virginica 0775 UO OS 


accuracy 0.87 
macro avg 0.87 0.85 0.85 
weighted avg 0:88 0:37 O87 


15 
11 
12 


38 


38 
38 


مقارنة أداء النوى 


إذا قارنا أداء أنواع مختلفة من النوى . فيمكن ملاحظة أن أداء نواة سيكمويد كان أسوأ من النوى 
الأخرى. هذا oY‏ دالة سيكمويد ترجع القيمتين 0 15 لذا فهي أكثر ملاءمة لمشاكل التصنيف 
الثنائى. بين النواة الغاوسية والنواة الخطية . يمكننا أن نرى أن نواة غاوس قد وصلت إلى معدل 
تنبؤ كامل بنسبة 1100 > بينما أخطأت النواة الخطية في تصنيف عينة. UU‏ كان أداء النواة 
الغاوسية أفضل. ومع ذلك , لا توجد قاعدة عامة حول أي نواة تؤدي بشكل أفضل في أي سيناريو. 
لذلك » فقط عن طريق اختبار نوى مختلفة ومراقبة النتائج يمكن تحديد نوع النواة في كل مشكلة. 
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شجرة القرار 


واحدة من أكثر خوارزميات التعلم الآلي شيوعًا هي أشجار القرار نظرًا لعملياتها البسيطة جدا. 
على عكس UT‏ المتجه الداعمة i‏ والتي تتطلب CL‏ رياضيًا OS‏ للغاية لفهمها . OB‏ أشجار 
القرار تحاكي حرفياً الطريقة التي نقوم بها نحن البشر على أساس يومي. على سبيل المثال: 
لنفترض أن لدينا غلاية ونريد أن نحملها » لكن في نفس الوقت » لا نريد حرق أيدينا أو إسقاطها 
l ALS Ley‏ 

في تحليل القرار » يمكن استخدام أشجار القرار لتمثيل القرارات واتخاذ القرارات بشكل 
موضوعي وصريح › وكما يوحي الاسم . يتم استخدام نموذج يشبه الشجرة للوصول إلى القرار 
النهائي. على الرغم من أنها أداة شائعة في التنقيب في البيانات لاستخراج استراتيجية لتحقيق 
هدف معين » إلا أنها تستخدم على نطاق واسع في التعلم الآلي. 

في التعلم JY‏ تعتبر أشجار القرار نموذجًا غير ابراتوري يمكن استخدامه لكل من التصنيف 
والانحدار. هذا يعني أن أشجار القرار عبارة عن نماذج مرنة لا تزيد من عدد المعاملات عن طريق 
إضافة المزيد من الميزات (إذا قمنا ببنائها بشكل صحيح) ويمكن أن تكون تنبو فتويًا (مثل ما 
إذا كان النبات من نوع معين أم لا) أو حتى ينتج التنبؤ العددي (مثل سعر المنزل). 

تم اقتراح أشجار القرار لأول مرة من قبل ليو بريمن » خبير الإحصاء في جامعة كاليفورنيا ء 
بيركلي. كانت فكرته هي عرض البيانات كشجرة تمثل فيها كل عقدة داخلية تجربة على خاصية 
(أساسًا عبارة عن شرط) . ويمثل كل فرع نتيجة الاختبار e‏ ولكل عقدة ورقية (عقدة طرفية) 
تسمية فئة. باختصار . كل سؤال يتم طرحه في عملية اتخاذ القرار هو تجربة على ميزة » ويؤدي 
كل اختبار إما إلى استنتاج أو اختبار إضافي يخضع للإجابة الحالية. بشكل أساسي e‏ تتعلم أشجار 
القرار مجموعة من القواعد الصريحة حول قيم السمات التي تؤدي إلى قرار يتنباً بقيمة الهدف. 
الشكل التالي هو مثال لشجرة قرار بسيطة تستخدم لتصنيف حيوان كطائر أ و كلب أو سمكة بناءً 
على خصائصها (السباحة أو من ذوات الاربع).: 
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تطرح خوارزمية شجرة القرار لتحليل الفئات الثلاث وصياغة الأسئلة اللازمة للتمييز بين 

الفثات المختلفة فى المثال أعلاه هذه الأسئلة: 
e.‏ هل تسبح؟ 
e‏ هل لها اريع ارجل؟ 

عندما تتم الإجابة على هذه الأسئلة بنعم أو لا . فإننا نعرف بالتأكيد الفئة التي ينتمي إليها الحيوان. 
ومن ثم فإن أشجار القرار لديها مفهوم بسيط نسبيًا لفهمه. لآنها بديهية للغاية. 

Sole‏ ما تتكون شجرة القرار من عقدة جذر والعديد من العقد الداخلية والعديد من العقد 
الطرفية. تتوافق العقد الطرفية مع نتائج القرار » وتتوافق كل عقدة أخرى مع اختبار الخاصية. يتم 
تقسيم العينات في كل عقدة إلى عقد فرعية وفقا لنتائج التفرع المتفرّع. كل مسار من العقدة 
الجذرية إلى العقدة الطرفية هو تسلسل قرار. تحاول أشجار القرار تفريع مجموعة البيانات بطريقة 
تجعل البيانات فى كل مجموعة متشابهة قدر الإمكان . بينما تختلف البيانات فى مجموعة واحدة 
قدر الإمكان عن البيانات في المجموعات الأخرى. الهدف هو إنتاج شجرة يمكنها تعميم العينات 
غير المرئية. 

يتبع بناء أشجار القرار استراتيجية فرق تسد ومن ثم يتم إنتاج شجرة القرار للخلف (لأعلى 
ولأسفل). بعبارات أبسط AS o‏ خوارزمية شجرة القرار بمجموعة بيانات التدريب في عقدة الجذر 
وتقسم البيانات بشكل متكرر إلى عقد ذات مستوى أدنى Fle‏ على معيار التفرع. فقط العقد التي 
تحتوي على مجموعة من الفتات المختلفة يجب أن تكون متفرعة أكثر. أخيرًا » توقف خوارزمية 
الشجرة قرار نمو الشجرة Fly‏ على معيار التقسيم”. أبسط معيار تقسيم هو المعيار الذي تنتمي فيه 
جميع الأمثلة التدريبية على الورقة إلى نفس الفئة. تتمثل إحدى المشكلات في أن بناء شجرة قرار 
على هذا المستوى قد يؤدي إلى overfitting‏ مثل هذه الشجرة لا تعمم جيدا على العينات 
التجريبية غير المرئية. يستخدم آلية التقليم3 لمنع تقليل الدقة بسبب -overfitting‏ 

بمجرد إنشاء شجرة القرار » يتم استخدامها لتصنيف عينات الاختبار باستخدام التمرير لأسفل 
من الجذر إلى الورقة الفردية. يتم استخدام حالة الفرع في كل عقدة داخلية لتحديد الفرع الصحيح 
لشجرة القرار لمزيد من التمرير e‏ ويتم الإبلاغ عن تسمية العقدة الطرفية التي تم الوصول إليها 
لعينة الاختبار. 


الميزة الرئيسية لشجرة القرار هى Lal‏ لا تحتاج إلى تحجيم البيانات 1242939 


Divide-and-conquer 
2 split criterion 


pruning 
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معايير اختيار ajal‏ (التفرع الأمثل) وعملية تدريب شجرة القرار 


تدريب شجرة القرار هو عملية من أعلى إلى أسفل يتم فيها تقسيم مجموعة بيانات التدريب 
بشكل متكرر إلى مجموعات فرعية أصغر. يتم تحديد هذه المجموعات الفرعية عن طريق تحديد 
قيود الميزة في كل مرحلة والتي هي أفضل قدرة على تفريع مجموعة العينة tly‏ على معيار محدد 
يسمى معيار التفرع. في صميم خوارزمية تعلم شجرة القرار هو اختيار خاصية الفرع المثلى. 
بشكل ple‏ مع تقدم عملية التفرع » نتمنى أن تنتمي المزيد من الحالات في كل عقدة إلى فئة 
واحدة. الغرض من معيار التفرع هو تعظيم الفصل بين OEM‏ المختلفة بين العقد الفرعية. 

الفكرة الأساسية لخوارزمية شجرة القرار هي تحديد الميزات التي تحتوي على معظم 
المعلومات حول الخاصية الهدف ثم تقسيم مجموعة البيانات على طول قيم هذه الخصائص. 
الميزة التي تفصل عدم اليقين بشكل أفضل عن المعلومات حول الميزة الهدف هي الميزة الأكثر 
إفادة. يستمر البحث عن الميزة ASV‏ إفادة حتى تصل إلى العقد الورقية النقية. تتضمن عملية 
بناء نموذج شجرة القرار طرح سؤال Joly‏ في كل حالة ثم المتابعة والتفرع. OV‏ عندما يكون 
هناك العديد من السمات التي تحدد القيمة المستهدفة لعينة معينة » تظهر الأسئلة التالية: 

" ما هي السمة التي يجب تحديدها في عقدة الجذر للبدء؟ 

* كيف ننتقل إلى تحديد الميزات في كل فرع لاحق في العقدة؟ 

n‏ الميزة التي ستعمل كعقدة داخلية أو عقدة طرفية ؟ 
لاتخاذ قرار بشأن هذه الحالات وكيفية تفريع الشجرة e‏ نستخدم معايير التفرع. فيما يلي وصف 
لمعايير التفرع الأكثر شمولاً المستخدمة في تعليم أشجار القرار. 
كسب المعلومات 


يعتمد هذا المعيار على مفهوم إنتروبيا المعلومات الذي يقيس الفوضى أو عدم اليقينفي النظام. 
كسب المعلومات هو قياس تغيرات الانتروبيا بعد تقسيم مجموعة بيانات بناءً على سمة وحساب 
مقدار المعلومات التي توفرها إحدى السمات حول فئة ما. اعتمادًا على مقدار كسب المعلومات. 
فإنه يقسم العقدة ويشكل شجرة القرار. تحاول خوارزمية شجرة القرار دائمًا تعظيم مقدار 
الحصول على المعلومات وتقسيم العقدة أو السمة التي تحتوي على أعلى قدر من المعلومات 
Nj‏ 

لنفترض أن py‏ يمثل نسبة الفئة k‏ في مجموعة البيانات D‏ و |/[| ,... ,1,2 = . وفقا 
لذلك. يتم تعريف الانتروبيا على النحو التالي: 

)7-6( ارا 


Ent(D) — ) pxlogz Px 
k=1 
D زاد نقاء‎ ۰ Ent(D) كلما انخفض‎ 
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افترض أن الخاصية المنفصلة © لها قيم V‏ المحتملة Gs, fat 02, ..., AV}‏ لذلك ينتج 
عن تقسيم مجموعة D‏ استنادًا إلى الخاصية © عقدة الابن17 . حيث يحتوي V‏ على عقدة الابن 
DY‏ التي تحتوي على جميع الحالاتفي 1 التي تأخذ القيمة a‏ للخاصية a‏ بعد ذلك» يمكن 
حساب DY p‏ باستخدام المعادلة (7-6). نظرًا لوجود عينات مختلفةفي العقد الفرعية 
فإن الوزن | OT‏ وهو مخصص لإظهار أهمية كل ide‏ أي كلما زاد عدد العينات؛ زاد تأثير العقدة 
الفرعية. ومن ثم» يتم حساب كسب المعلومات من تفرع مجموعة البيانات D‏ بالخاصية a‏ 
باستخدام المعادلة التالية: 


Gain(D,a) = Ent(D) — 3 7 


D") 


ail‏ مجتمع )0( ينتمى فيه جميع (JI el c Ul‏ نفس المجموعة. 


المعامل الجيني 
المعامل الجيني هو مقياس للشوائب أو النقاء المستخدم لإنشاء حدود القرار. يجب تفضيل 
الخاصية ذات معامل جيني المنخفض على مؤشر جيني العالي. باستخدام نفس الرمز (6-7) « 
يتم تعريف قيمة Gini‏ لمجموعة D‏ على pull‏ التالي: 

lyi 


Gini(D) = 9. 9. pe Pe 
k-1k'zk 
ly| 


=1-) pi 
k=1 


بشكل حدسي . تمثل Gini(D)‏ احتمال وجود عينتين اخترناهما عشوائيًا من مجموعة بيانات 
D‏ التي تنتمي إلى OW‏ مختلفة. كلما انخفض عامل جيني Gini(D)‏ « زادت درجة نقاء 
مجموعة بيانات .D‏ 

باستخدام رمز مشابه لكسب المعلومات » يتم تعريف عامل جيني للسمة © على النحو التالي: 


|D" 
لع‎ 


Gini index(D,a) — Y | pini CD") 


Giy‏ لمجموعة ميزات المرشح A‏ نختار الميزة ذات عامل جيني الأدنى كميزة الفرع. 
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معيار التوقف والتقليم 


يرتبط معيار توقف نمو شجرة القرار ارتباطًا وثيقًا باستراتيجية التقليم. عندما تنمو شجرة القرار 
حتى النهاية » أي ما دامت كل عقدة في الورقة تحتوي فقط على عينات تنتمي إلى فئة معينة » 
تظهر شجرة القرار الناتجة دقة بنسبة 100/ في العينات التي تنتمي إلى البيانات التدريبية. ومع 
ذلك » في هذه الحالة UU e‏ ما يتم تعميمها بشكل سيئ على عينات الاختبار غير المرئية. هذا 
لأن شجرة القرار متوافقة الآن حتى مع الميزات العشوائية في الأمثلة التدريبية. تحدث معظم هذه 
الضوضاء بسبب العقد ذات المستوى الأدنى التي تحتوي على نقاط بيانات أقل. ومن ثم i‏ تفضل 
النماذج الأسط (أشجار القرار الضحلة) على النماذج الأكثر تعقيدًا (أشجار القرار العميق) إذا 
ارتكبت نفس الخطأ في بيانات التدريب. 

لتقليل مستوى overfitting‏ « تتمثل إحدى الإستراتيجيات في منع الشجرة من النمو Serle‏ 
لسوء الحظ » لا توجد طريقة لمعرفة النقطة الدقيقة التي تتوقف عندها الشجرة عن النمو. لذلك 
تتمثل الإستراتيجية الطبيعية في تقليم الأجزاء المتضخمة من شجرة القرار وتحويل العقد 
الداخلية إلى عقد ورقية. تشمل استراتيجيات التقليم العامة التقليم المسبق! وما بعد التقليم. 

يقوم التقليم المسبق بتقييم تحسين القدرة على تعميم كل فرع » وإذا كان التحسن «Voie‏ 
فإنه يلغي الفرع . أي يتم تحديد العقدة كعقدة ورقية. في المقابل e‏ يعيد التقليم اللاحق فحص 
العقد غير الورقية لشجرة قرار مطورة بالكامل » وإذا أدى البديل إلى تحسين قدرة التعميم e‏ يتم 
استبدال عقدة واحدة بالعقدة الورقية. 

يتميز التقليم المسبق بأنه أسرع وأكثر كفاءة » لأنه يتجنب إنشاء أشجار فرعية شديدة التعقيد 
تتوافق مع بيانات التدريب. في مرحلة ما بعد التقليم » تقوم بزراعة الشجرة بالكامل باستخدام 
خوارزمية شجرة القرار الخاصة بك ثم تقليم الأشجار الفرعية لأعلى ولأسفل. تبدأ بعقدة القرار 
السفلية وتقرر معايير مثل كسب المعلومات ما إذا كنت تريد الحفاظ على عقدة القرار هذه أو 
استبدالها بعقدة طرفية. 
التقليم المسبق: 

m‏ يتم استخدام هذه التقنية قبل بناء شجرة القرار. 

" يمكن إجراء التقليم المسبق عن طريق ضبط المعاملات الفائقة. 


مابعد التقليم: 
j m‏ تستخدم هذه التقنية بعد صنع شجرة القرار. 
= تستخدم هذه التقنية عندما يكون لشجرة القرار عمق كبير جد وتظهر نموذجًا كبيرًا. 


I pre-pruning 


2 post-pruning 


الفصل السادس: التعلم الخاضع للاشراف 263 


NAS هذه التقنية أيضًا باسم التقليم‎ à e o" 
مميزات شجرة القرار:‎ 

ه مقاومة للخطأ. وإذاكانت بيانات التدريب تحتوي على أخطاء . فإن خوارزميات شجرة 
القرار ستكون أكثر ملاءمة لمعالجة مثل هذه المشكلات. 

O‏ تنتج قواعد مفهومة وبديهية للغاية. 

e‏ يمكنها إدارة المتغيرات المستمرة والمتقطعة. 

o‏ طريقة عملها بسيطة للغاية ويمكن شرحها بسهولة لأي شخص. 

٠ه‏ ليس لديها أي افتراضات حول خطية البيانات وبالتالى يمكن استخدامها عندما تكون 
المعاملات غير الخطية ذات صلة. 

e‏ توفر وقت إعداد البيانات » لأنها ليست حساسة للقيم المفقودة والقيم البعيدة. 

ه تعتبر مفهوم شجرة القرار ST‏ دراية للمبرمجين وأسهل في الفهم من الخوارزميات 
المماثلة الأخرى. 


عيوب شجرة القرار: 


o‏ عرضة للأخطاء في مشاكل التصنيف مع الفصول الكبيرة وعدد صغير نسبيًا من الأمثلة 
التعليمية. 

٠‏ بالنسبة لشجرة القرار » قد يكون الحساب أحيانًا أكثر تعقيدا من الخوارزميات الأخرى. 

e‏ غالبا ما يستغرق تدريب النموذج Day‏ من الوقت. 

© يمكن أن تؤدي إضافة نقطة بيانات جديدة إلى dole!‏ إنتاج الشجرة » ويجب إعادة 
حساب جميع العقد وإنشائها. 

« لذلك من أجل التنبؤ الأفضل‎ . eas غالبا ما تكون شجرة القرار المنفردة متعلمًا‎ e 
نحتاج إلى مجموعة من أشجار القرار لإنشاء غابة عشوائية.‎ 

o‏ عرضة للضبط الزائد. من أجل ملاءمة البيانات (حتى بيانات الضوضاء) » تستمر فى 
es VS seat ect cast. aod edid‏ رها 
بهذه الطريقة يفقد قابليته للتعميم. 


1 backward pruning 
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e‏ بسبب الضبط الزائد . هناك احتمال كبير pl‏ (من أجل تحقيق صفر تحيز c‏ مما 

يؤدي إلى تباين كبير) في المخرجات . مما يؤدي إلى العديد من الأخطاء في التقدير 
النهائي ويظهر دقة منخفضة في النتائج. 

شجرة القرار فى بايثون 

مجموعة البيانات 

في هذا المثال » نستخدم af‏ مجموعة بيانات iris‏ في الأمثلة السابقة « وصلنا إلى مجموعة 

البيانات هذه من خلال موقعها على الإنترنت. مجموعة البيانات هذه متاحة Cal‏ فى مكتبة 

.Scikit- Learn‏ في هذا المثال e‏ نقوم باستيراده من خلال المكتية. 


استيراد المكتبات 
In H: import numpy as np‏ 
import matplotlib.pyplot as plt‏ 
import pandas as pd‏ 
استيراد مجموعة البيانات 


In Él] from sklearn import datasets 
iris — datasets.load iris() 


تحضير البيانات 
تتمثل الخطوة التالية في تقسيم مجموعة البيانات إلى سماتها وعلاماتها. استخدم الكود التالي 
In [4: Xc-iris.data‏ 
y = iris.target‏ 
تقسيم ác gore‏ البيانات 
In [5]: from sklearn.model selection import train test split‏ 


X train, X test, y train, y test = train test, split(X, y, 
test size =0.25, random, state-42) 


التدريب والتنبؤ 


تتضمن مكتبة شجرة Bb Scikit- Learn‏ لمختلف خوارزميات شجرة القرار. نظرًا لأننا سنقوم 
بمهمة تصنيف في هذا المثال c‏ فإننا نستخدم كلاس DecisionTreeClassifier‏ لهذا المثال. 
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In E]: from sklearn.tree import DecisionTreeClassifier 
classifier = Decision TreeClassifier() 
classifier.fit(X train, y. train) 
الآن وقد تم تدريب المصنف الخاص بنا . فلنقم ببعض التنبؤات حول بيانات الاختبار. للقيام‎ 
بذلك » قم بتشغيل التعليمات البرمجية التالية:‎ 


In H: y pred = classifier.predict(X test) 


تقييم الخوارزمية 
فى هذه الخطوة . قمنا بتدريب الخوارزمية الخاصة بنا وقمنا ببعض التنبؤات. OW‏ نريد أن نرى 
dodi buena‏ 
In DEL from sklearn.metrics import classification, report,‏ 
confusion matrix‏ 


print(confusion matrix(y test, y. pred)) 
print(classification, report(y. test, y pred)) 


precision recall fl-score support 


Iris-setosa 1.00 1.00 1.00 15 
Iris-versicolor 1.00 1.00 1.00 ail 
Iris-virginica 100 TOO TOO 19 


accuracy 1.00 38 
macro avg 1.00 1.00 1.00 38 
weighted avg 100 1:00 — 1:00 38 


تظهر النتائج أن نموذج شجرة القرار لدينا قادر على تصنيف جميع السجلات ال 38 في مجموعة 
الاختبار بدقة 100./. 

طباعة التمثيل كنص 

يمكن أن يكون ناتج شجرة القرار كتمثيل نصي eie‏ عند العمل على تطبيقات بدون واجهة 
بتنفيذ التعليمات البرمجية التالية: 


In Dk from sklearn import tree 
text representation = tree.export_text(classifier) 
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print(text representation) 


Out [5]: =-- feature_3 <= 0.80 

-- class: 0 

-- feature 3 > 0.80 

= feature 2< 4.75 

~ feature 3 <= 1/65 

-- class: 1 

-- feature 3 1.65 

-- class: 2 

- feature 2> 4.75 

- eatUre Ss <I 

-- feature 2 <= 4.95 

-- class: 1 

- feature 2 = 4.95 

heaters» 

-- elass: 2 

~ feature 3» 1.55 

-- feature 2 <= 5.45 
| --- class: 1 

- feature 2 > 5.45 
| --- class: 2 

- feature 3» 1.75 

-- feature 2 <= 4.85 
=- feature_1 <= 3.10 
| --- Class: 2 

-- feature. 1> 3.10 
| --- class: 1 

-- feature 2> 4.85 

-- class: 2 


إذاكنت تريد حفظه في ملف » فقم بتنفيذ الكود التالي: 


In B]: with open("decistion_tree.log", "w") as fout: 
fout.write(text_representation) 


التمثيل المرني للنموذج 

هناك العديد من المكتبات للتمثيل المرئي لشجرة القرار. ومع ذلك في هذا المثال e‏ نستخدم 
طريقة plot tree‏ في مكتبة .Scikit-Learn‏ تسمح U‏ هذه الطريقة بإنتاج شكل الشجرة 
بسهولة. للقيام بذلك e‏ قم بتنفيذ التعليمات البرمجية التالية: 


In B: fig = plt.figure(figsize=(25,20)) 
_ = tree.plot tree(classifier, 
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E 
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نايف بايز 


نايف بايز Naive Bayes‏ هي تقنية تصنيف تستند إلى نظرية بايز » بافتراض أن جميع الخصائص 
التي تتنباً بالقيمة المستهدفة مستقلة عن بعضها البعض. تحسب هذه التقنية احتمالية كل فئة ثم 
تحدد الفئة الأكثر احتمالية. لكن لماذا تسمى الخوارزمية "ساذجة"؟ هذا ON‏ المصنف يفترض 
أن خصائص الإدخال التي تدخل النموذج مستقلة عن بعضها البعض. وبالتالي » لا يؤثر تغيير 
ميزة إدخال واحدة على أي ميزة أخرى. بسيط جدا . بمعنى أن هذا الافتراض قد يكون أو لا يكون 


صحيحا. 


الأسامن النظرية تايف بار أو قاغدة بايذ T‏ = (1|5)م» والتي تقدر الاحتمال 
p(H S) ‘gael‏ ل a‏ الفرضية أو النموذج. هنا p(S]H)‏ هو احتمال الامكان3 من صحة عينات 
البيانات ؛ بالنظر إلى أن H‏ صحيح pH) oly‏ الاحتمال السابق3 (الأساسي) لفرضية eH‏ 
والذي يتضمن بطريقة ما أي معرفة مسبقة“ ب H‏ إذا لم تكن المعرفة السابقة متوفرة e‏ فيمكننا 
استخدام توزيعات موحدة كما كان من قبل. بالإضافة إلى ذلك . يمكن اعتبار P(S)‏ بمثابة 
الاحتمال السابق لعينة LS‏ اعتمادًا على التركيز والصياغة . يمكننا البحث في الحد الاقصى 
للفرضية MAP)‏ 

maximize p(H|S) « maximize P(S|H)P(H) 
(ML) أو يمكننا البحث عن الاحتمال الارجح”‎ 
maximize p(S|H) 

إذاكانت كل من p(S) ;p(H)‏ 26 فإنها MAP Jobs‏ السابقة. 

بالنسبة لمشكلة التصنيف التي تركز على الخاصية × = F‏ مع K‏ قيم الميزات المختلفة 
[x1, X2, ...., XK]‏ تشكل دالة النموذج Y= F(X)‏ مجموعة من القيم المحددة المتقطعة 
له © .y;‏ الغرض من المصنف البايزي هو تقدير الاحتمال y‏ ببيانات ;× لإسناد احتمال الفئة 


maxp(yi|x;) = pOilxi X2, Xg) yi € o 
وهو ما يعادل:‎ 


i posterior probability 

? likelihood probability 

3 prior probability 

? background knowledge 

? maximum likelihood (ML) 
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DP (X1, x2, + 30200 
ax. M5 

DX X2, iu XK) 
هو أمر صعب وفي معظم الحالات‎ 0), X2, ...., Xgl yi) ومع ذلك » فإن حساب الاحتمال‎ 
يستحيل حسابه. الافتراض البسيط هو أن جميع قيم بيانات العينة مستقلة بشكل مشروط عن‎ 
بعضها البعض « وبالتالي فإن الاحتمال المشترك هو نتاج الاحتمال الفردي. حتى نتمكن من‎ 


استخدامه: 


« max P(X, xz, ...., Xelyi Jp Y1) 


k 
PG xs s xelydPOW = | [pey 
i=1 


وهو ما يعادل: 


k 
max p(yi) |] pGilyo 


المصنف الاحتمالي الذي يستخدم المعادلة أعلاه لتعيين الاحتمالات يصبح Cees‏ نايف بايز. 

لتعليم مصنف نايف بايز » نحسب الاحتمال السابق (i)‏ من مجموعة التدريب «D‏ ثم 

نحسب الاحتمال الشرطي p xi yi)‏ لكل ميزة. إذاكان Dy,‏ يمثل مجموعة فرعية من D‏ تحتوي 

على جميع عينات yi BU‏ بافتراض أن العينات مستقلة عن نفس التوزيع* Gid)‏ « يمكن 

ID, | 

|D| 

بالنسبة للخصائص المتقطعة . إذا كانت بير Dy,‏ تمثل مجموعة فرعية من Dy,‏ تحتوي على 

جميع العينات التي تتلقى قيمة ;× في الخاصية «ith‏ فيمكن تحقيق الاحتمال الشرطي 
p(xi|yi)‏ بواسطة 


pyi) = 


Dy; 

IDs, 

في بعض الحالات . خاصة في مجموعة البيانات المستمرة » يمكن افتراض أن العينات 

مأخوذة من التوزيع الغاوسي. ومن ثم e‏ فإننا نفترض أن pily) ~N Hyp 0y;)‏ حيث u‏ 
My,‏ و Oy,‏ هي متوسط وتباين خاصية i-th‏ ل عينات الفئة » على التوالي. لدينا وفقا لذلك: 


pGilyi) = 


1 Independent and identically distributed 
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2 
1 (xi i Hy) 
XV) = ————ex 
pC ily) V2n0y, p 207, 


الآن » لنقم بتدريب تصنيف نايف بايز باستخدام مجموعة بيانات البطيخ في الجدول -1( 
)6 وصنف البطيخ «UI T1‏ 


ID color root sound texture umbilicus surface density sugar ripe 
T1 green curly muffled clear hollow hard 0.697 0.460 ? 


جدول 1-6 مجموعه بيانات البطيخ )2021 (Zhou,‏ 


ID colo root sound textur umbilicu surfac densit sugar ripe 
r e s e y 

1 green curly muffle clear hollow hard 0.697 0,46 true 
q 0 

2 dark curly dull clear hollow hard 0.774 0,37 true 
6 

3 dark curly muffle clear hollow hard 0.634 0,26 true 
4 4 

4 green curly dull clear hollow hard 0,608 0,31 true 
8 

5 light curly muffle clear hollow hard 0,556 0,21 true 
q 5 

6 green slightly muffle clear slightly soft 0,403 0,23 true 
curly d hollow 7 

7 dark slightly muffle slightly slightly soft 0,481 0,14 true 
curly d blurry hollow 9 

8 dark slightly muffle clear slightly hard 0,437 0,21 true 
curly d hollow 1 

9 dark slightly dull slightly slightly hard 0,666 0,09 false 
curly blurry hollow 1 

10 green  straigh dull clear flat soft 0,243 0,26 false 
١ 7 

11 light straigh dull blurry flat hard 0,245 0,05 false 
i 7 

12 light curly muffle blurry flat soft 0,843 0,09 false 
4 9 

13 green slightly muffle slightly hollow hard 0,639 0,16 false 
curly d blurry 1 

14 light slightly dull slightly hollow hard 0,657 0,19 false 
curly blurry 8 

15 dark slightly muffle clear slightly soft 0,360 0,37 false 
curly d hollow 0 

16 light curly muffle blurry flat hard 0,593 0,04 false 
d 2 

17 green curly dull slightly slightly hard 0,719 0,10 false 
blurry hollow 3 


نحن أولا نقدر (نخمن) الاحتمال: 


8 
P(ripe ع‎ true) — 17 = 0.471 
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9 
P(ripe = false) = 17^ 0.529 


بعد ذلك » نقدر الاحتمال الشرطي لكل خاصية pily)‏ 


3 
Poreen|true = P(color = green|ripe = true) = E 0.375 
, 3 
Poreen|false = P(color = green|ripe = false) = Ns 0.333 
, 5 
Pcuriyitrue = P(root = curly|ripe = true) = a> 0.625 
f 3 
Prurly|false = P(root = curly|ripe = false) = ges 0.333 
, 5 
Pmuffled|true = P(sound = muffled|ripe = true) = "m 0.625 
] 4 
Pmuf fled|false = P(sound = muffled|ripe = false) = g^ 0.444 
: 7 
Poearitrue = P(texture = clear|ripe = true) = a" 0.875 


Pelear|false = P(texture = clear|ripe = false) = — ~ 0.222 


Ol N 


5 
Phottow|true = P(umbilicus = hollow|ripe = true) = a= 0.625 
" 2 
Phollow|false = P(umbilicus = hollow|ripe = false) = oo 0.222 
6 
Phard|true = P(surface = hard|ripe = true) = 8^ 0.750 


6 
Phard|false = P(surface = hard|ripe = false) = p^ 0.667 


Paensity:0.697|true = P (density = 0.697|ripe = true) 


(0.697 — 0.574)? 
2 « 0.1292 


= ———— ex 
v 2m * 0.129 
Paensity:0o.697|faise = P(density = 0.697|ripe = true) 


1.959 = ) ( م 


(0.697 — 0.496)? 
SO = c 
VZT * 0.195 2 * 0.195 


Psugar:0.460|true = P(sugar = 0.460|ripe = true) 


) = 1.203 
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(0.460 — 0.279)? 
2 * 0.1012 


SSS EX 
v2 * 0.101 p 
Psugar:0.460|false = P(sugar = 0.460|ripe = true) 


i (0.460 — 0.154)?, aan 
= ———_— ex (- —>—....,_) ® 0. 
20108 P 2 * 0.1082 


( ) = 0.788 


P(ripe = true) x Poreen|true x Pourly|true x Pmuf fled|true x Pelear|true 


x Pnoitow|true x Phard|true x Paensity:0.697|true 
x Psugar:0.460|true & 0.052 


P(ripe = false) x Poreen|false x Pourty|false x Pmuf fled|false 
x Petear| false x Phollow|false x Prard|false 


—5 
x Paensity:0.697|false x Psugar:0.460|false & 6.80 x 10 


نظرًا x 107? oY‏ 6.80 > 0.052( تحدد مصنف بايزي Xue X3‏ الاختبار T1‏ على أنها 


.true 
مميزات نايف بايز:‎ 


al ©‏ سهل التنفيذ , لأنه يتم حساب الاحتمال فقط. 
e‏ يمكن أن يعمل بشكل أفضل من النماذج الأخرى إذا استمر افتراض عدم الخطية الشرطي. 
e‏ يعمل بشكل أسرع للتنبؤ بفئات البيانات التجريبية. 


عيوب نايف pl‏ : 


e‏ الافتراض الشرطي ليس صحيحًا دائمًا. 

e‏ في مجموعة البيانات de pal‏ إذا كانت خاصية السلسلة تحتوي على فتة لم يتم 
ملاحظتها في مجموعة التدريب e‏ فإن النموذج يعينها احتمالًا بقيمة 0 (صفر) ولن 
يكون قادرًا على التنبؤ. GE‏ ما يشار إلى هذا على أنه تردد صفري'. 


1 Zero Frequency 
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In 


In 


In 


[1]: 


[2]: 


[1]: 


نايف pl‏ فى بايتون 
مجموعة البيانات 
على سبيل المثال « نستخدم مجموعة بيانات iris‏ البسيطة. 
استيراد المكتبات 
import numpy as np‏ 
import matplotlib.pyplot as plt‏ 
import pandas as pd‏ 
استيراد مجموعة البيانات 
url = "https://archive.ics.uci.edu/ml/machine-learning-‏ 


databases/iris/iris.data" 


# Assign colum names to the dataset 
names = ['sepal-length', 'sepal-width', 'petal-length', 
'petal-width', 'Class'| 


# Read dataset to pandas dataframe 
dataset = pd.read_csv(url, names-names) 


المعالجة المسبقة 
X = dataset.iloc[:, :-1[ values‏ 
y = dataset.iloc[:, 4]. values‏ 
تقسيم مجموعة البيانات 
from sklearn.model selection import train test split‏ 


X train, X test, y train, y test = train, test, split(X, y, 
test size =0.25, random, state-42) 


تدريج البيانات 


from sklearn.preprocessing import StandardScaler 
scaler = StandardScaler() 
scaler.fit(X_train) 


X_train = scaler.transform(X_train) 
X_test = scaler.transform(X_test) 
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التدريب والتنبؤ 
SL‏ قمنا بتقسيم البيانات إلى مجموعات تدريبية وتجريبية ثم قمنا بتدريج الخصائص على 
البيانات. حان الوقت الآن لتدريب نايف pl‏ على بيانات التدريب. فى هذه الخطوة من كلاس 
5518 نستخدم مكتبة .sklearn.naive bayes‏ استخدمنا هنا نموذجًا غاوسيًا » وهناك 
العديد من النماذج GEM‏ مثل برنولي ومتعددة الحدود وما إلى ذلك. 

In H]: from sklearn.naive bayes import GaussianNB 


classifier = GaussianNB() 
classifier.fit(X train, y. train) 


الخطوة الأخيرة هي التنبؤ بالنموذج المبني على بياناتنا التجريبية. 
In H: y pred = classifier.predict(X test)‏ 


تقييم الخوارزمية 


In DL from sklearn.metrics import classification, report, 
confusion, matrix 
print(confusion matrix(y. test, y. pred)) 
print(classification  report(y test, y pred)) 


Out [7: [[15 0 0] 


precision recall fl-score support 


Iris-setosa 1.00 1.00 1.00 il 
Iris-versicolor 1.00 1.00 1.00 iul 
Iris-virginica 1.00 1.00 1.00 12 


accuracy 1.00 38 
macro avg 1.00 1.00 1.00 38 
weighted avg TO TOO T00 38 


تظهر النتائج أن نموذج نايف بايز الكاوسي قادر على تصنيف جميع السجلات ال 38 في 
مجموعة الاختبار بدقة 100./. 


الانحدار (التوقع) 


بشكل عام . هناك طريقتان لاستخراج المعرفة ‏ الأولى من خلال الخبراء الميدانيين والثانية 
باستخدام التعلم الآلي. الخبراء ليسوا مفيدين جد للكميات الكبيرة من البيانات » لذلك نستخدم 


التعلم الآلي للقيام بذلك. تتمثل إحدى الطرق التي يمكننا من خلالها استخدام التعلم الآلي في 


الفصل السادس: التعلم الخاضع للاشراف 275 


تكرار منطق الخبراء في شكل خوارزميات » ومع ذلك ob e‏ هذا أمر شاق للغاية ويستغرق وقتا 
طويلاً Was‏ بالإضافة إلى أنه قد لا يحقق ما نحتاج إليه. ومن ثم » فإن حل هذه المشكلة هو 
الانتقال إلى خوارزميات التعلم الاستقرائي؟ التي تولد إستراتيجية القيام بمهمة ما بنفسها ولا 
تتطلب تعليمات منفصلة في كل مرحلة. التصنيف والانحدار هما خوارزميات في التعلم الآلي 
تقع ضمن هذه الفئة. على عكس عمليات التصنيف e‏ حيث يتم إجراء محاولات للتنبؤ بتسميات 
الفتات بشكل منفصل .ء تتنبأ نماذج الانحدار بالقيم العددية. بمعنى آخر » يعد الانحدار مشكلة 
تعلم خاضعة للإشراف حيث يوجد مدخلات X‏ ومخرج ل ٠‏ والدالة هي تعلم التطبيق من 
المدخلات إلى المخرجات. لنفترض أننا نريد أن يكون لدينا نظام يمكنه التنبؤ بسعر السيارة 
المستعملة. المدخلات وخصائص السيارة مثل العلامة التجارية والسنة والمسافة المقطوعة 
وغيرها من المعلومات التي نعتقد أنها تؤثر على قيمة السيارة والإنتاج هو سعر السيارة. أو فكر 
في التنقل مع روبوت متحرك (سيارة ذاتية القيادة) ؛ الإخراج هو الزاوية التي يجب أن تدور فيها 
عجلة القيادة في كل مرة للتقدم دون الاصطدام بالعقبات CU pols‏ ويتم توفير المدخلات 
بواسطة أجهزة استشعار في السيارة مثل كاميرات الفيديو ونظام تحديد المواقع العالمي (GPS)‏ 
وما إلى ذلك. 
كيف يعمل الانحدار 
في الانحدار » نريد كتابة الناتج الرقمي Gilly cy‏ يسمى المتغير التابع . كدالة للمدخل «X‏ 
والذي يسمى المتغير المستقل. افترض أن الناتج هو مجموع دالة الإدخال f (x)‏ ومقدار الخطأ 
العشوائي كما هو موضح: 

y-f(x)*e 
الذي يحتوي على مجموعة من‎ g (x; 8) غير معروفة ونريد تقريبها بالمقدر‎ f (X) هنا الدالة‎ 
المعاملات 0 . افترض أن الخطأ العشوائي يتبع التوزيع الطبيعي بمتوسط 0. إذا كانت‎ 
رول القيم المرصودة‎ s, Yn و‎ X هي عينة عشوائية لمشاهدات متغير الإدخال‎ ×1, ..., Xn 
يمكننا‎ c بعد ذلك » باستخدام افتراض أن الخطأ يتبع التوزيع الطبيعي‎ Ly مرتبطة بمتغير الإخراج‎ 
0 استخدام طريقة تقدير الاحتمالية القصوى لتقدير قيم المعامل 0 . يمكن إظهار أن القيم‎ 
التي تعظم دالة الاحتمال هي القيم التي تقلل مجموع المربعات التالية:‎ 


E(0) = (yı — 964,00)? + t On — 9609,06)? 


1 inductive learnin g 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


تعرف طريقة إيجاد قيمة 0 كقيمة التي تقلل EO)‏ باسم طريقة مربعات صغرى عادية! 
(OLS)‏ في هذا القسم c‏ نستخدم هذه الطريقة لتقدير المعاملاات. 


طريقة مربعات صغرى anle‏ 


مجموع مربعات الأخطاء ؛ أي مجموع مربعات المسافة العمودية بين قيمة Y‏ المتوقعة وقيمة y‏ 
الفعلية (الشكل 12-6). 


نموذج الانحدار 


القيم المتوقعة 


^ 
' 
1 
' 
1 
1 
1 
D 
1 
[ 
' 
' 
1 
[ 
' 
[ 
' 
[ 
[ 
[ 
[ 
LI 
[ 
LI 
[ 


شكل 12-6 خطأ في القيم المرصودة 
إذا كانت ل هي القيمة المتوقعة Cy]‏ فسيتم إعطاء مجموع مربعات الأخطاء على النحو التالي: 


n 
E - 0-0 
i-1 


= X i (+ Bx)? 


لذلك علينا إيجاد قيمتي » و / و بطريقة تجعل E‏ في حدها الأدنى. يمكن إثبات أنه يمكن 
الحصول على القيمتين © و b‏ وهما القيمتان » و B‏ » على التوالي » حيث يكون E‏ هو الحد 
الأدنى . عن طريق حل المعادلات التالية: 


1 Ordinary Least Squares 
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n n 

> = na +b 3 Xi 

i=1 i-1 
n n n 
> x = a) x +h) x} 
i=1 i=1 i=1 


معادلات ايجاد a‏ و b‏ 


وكذلك التباين × بواسطة المعادلة التالية يحتسب: 


Var(x) — —Àd s — x)? 


يتم تعريف التغاير المشترك بين × و ل ٠‏ المشار إليهما بواسطة Cov(x, y)‏ على النحو 
التالي: 


1 
Cov(x,y) = بن لاست‎ - (7: = y) 


يمكن إثبات أن قيم b‏ و © يمكن حسابها باستخدام المعادلات التالية: 


_ Cov(x, y) 
`` Var(x) 
a=y-—bx 
الانحدار الخطى السيط‎ 


يشير مصطلح "الخطية" في الجبر إلى العلاقة الخطية بين متغيرين أو أكثر » والتي e‏ إذا تم رسمها 
في مساحة ثنائية الأبعاد . ينتج عنها خط مستقيم. ضع في اعتبارك سيناريو نريد من خلاله تحديد 
العلاقة الخطية بين عدد ساعات الدراسة للطالب والنسبة المئوية للدرجات التي يحصل عليها 
الطالب في الاختبار. نريد أن نعرف إلى أي مدى يمكن للطالب أن يحرز درجات عالية بالنظر إلى 
عند Ld‏ التي يعدها للامتحان. إذا قمنا برسم المتغير المستقل (الساعة) على المحور 
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السيني والمتغير التابع (النسبة المئوية) على المحور الصادي e‏ فإن الانحدار الخطي يعطينا خط 
مستقيمًا يناسب نقاط البيانات بشكل أفضل. 

نتذكر من المدرسة الثانوية أن معادلة الخط المستقيم هي أساسًا على النحو التالي: 

y= mx +b 

ثابتة لأنها خصائص بيانات ولا يمكن تغييرها. ومن ثم » فإن القيم التي يمكننا التحكم فيها هي 
ikä‏ التقاطع مع محور y‏ والميل. يمكن أن يكون هناك عدة خطوط مستقيمة اعتمادًا على قيم 
عدة خطوط في نقاط البيانات وإرجاع الخط بأقل خطأ. 

لنفترض أن × متغير توقع مستقل وأن y‏ متغير تابع » وافترض Cal‏ أن لدينا مجموعة من 
القيم المرصودة ل y‏ و ×. يحدد نموذج الانحدار الخطي البسيط العلاقة بين y‏ و × باستخدام 
خط بواسطة معادلة على النحو التالى: 


y=at+ px 
شيوعًا‎ PI يتم استخدام طريقة تقدير المربعات‎ e من أجل تحديد التقديرات المثلى د » و‎ 
الموصوفة سابقا.‎ 
متغير مستقل » نحصل على انحدار خطي‎ y بافتراض أن‎ See لفهم أفضل « دعونا نوضح‎ 
للبيانات التالية:‎ 
x 10 20 30 40 50 
y 1.00 2.00 1.30 3.75 2.25 
لدينا:‎ 
n=5 
x= Eao + 2.0 + 3.0 + 4.0 + 5.0) 
= 3.0 
y= = (1.00 + 2.00 + 1.30 + 3.75 + 2.25) 
= 2.06 
Cov(x,y) = 000 — 3.0)(1.00 — 2.06) + ... + (5.0 — 3.0)(2.25 — 2.06)] 
— 1.0625 


Var(x) = —[(1.0 — 3.0)? + ... + (5.0 — 3.0)?] 


Ale 
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In [1]: 


Out [1]: 


= 25 
1.0625 
025. 
= 0.425 


a — 2.06 — 0.425 x 3.0 
— 0.785 


لذلك . يكون نموذج الانحدار الخطي للبيانات على النحو التالي: 
y — 0.785 + 0.425x‏ 
يمكنك أيضًا تشغيل الكود التالي في بايثون: 


Zdata 
X-[[1.0], [2.0], [3.0], [4.0], [5.0] 
Y=[1.00, 2.00, 1.30, 3.75, 2.25] 


from sklearn.linear_model import LinearRegression 
lr = LinearRegression() 

Ir.fit(X, Y) 

#print 

print("b:","%.3f" % round(lr.coef [0], 3)) 
print("a:","%.3f" % round(lr.intercept , 3)) 

b: 0.425 

a: 0.785 


الانحدار sarin‏ الحدود 


لنفترض أن × متغير توقع مستقل و y‏ متغير تابع » لذلك فإن نموذج الانحدار متعدد الحدود 


يحدد العلاقة بين y‏ و × بالمعادلة على النحو التالى: 


Y = do + ax + ax? + + agx" 


يتم استخدام طريقة Oly pol‏ الصغرى لتحديد القيم المثلى للمعاملات Ay‏ , ... ,0/1 رو . قيم 


المعاملات هي القيم التي تقلل مجموع المربعات: 


E =) [yi - (ao + aax; + ax? e aad 
i=1 


يتم الحصول على القيم المثلى للمعاملات من خلال حل نظام المعادلات التالية: 
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- = 0,i = 0,1 k 
TA ,L=0,1,...,k. 
هي كما يلي:‎ E افترض أن قيم المعاملات التي تقلل‎ 
a;-a;,i = 0,1, ...,n. 
لذلك . يمكن ملاحظة أنه يمكن الحصول على قيم :© من خلال حل نظام المعادلات‎ Gedy 
(k + 1) الخطية‎ 
yi = aon + ينه‎ (X 2:) + +a) rF) 
Yyivi = رح )مه‎ ri) + (9322) ox (Daf) 
3 yir? = o9(9222) + (9222) ++ akl f?) 


Y vizi = ao(>> xf) F o1(» gr) qoem )مه‎ 25 


من خلال حل نظام المعادلات الخطية هذا » نحصل على القيم المثلى للمعاملات. لفهم أفضلء 
دعونا نوضح مثالاً. نحن عازمون على إيجاد نموذج انحدار تربيعي للبيانات التالية: 


x 3 4 5 6 7 
y 25 3.2 3.8 6.5 11.5 


اسمحوا ان يكون نموذج الانحدار التربيعي على النحو التالي: 


Y = ويه‎ + T يه‎ 


القيم Ao‏ 01 و Az‏ التي تقلل من مجموع مربعات الخطأ هي «Q5 9 Ay «do‏ والتي تحقق 
المعادلات التالية: 
wi = nao + ai (>) zi) + a2(>) 27)‏ 
viti = 2008 £i) + 293 r?) + 209 a?)‏ 
a2(Y x$)‏ + )7 زر( )نه + )27 > )مه = yt?‏ > 
باستخدام البيانات التى قدمت » لدينا: 
25a, + 135a;‏ + ه50 = 27.5 
135a, + 775a, + 4659a,‏ = 966.2 
من خلال حل نظام المعادلات e‏ نحصل على المعادلات: 
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In [1]: 


Out [1]: 


ag = 12.4285714‏ 
a, = —5.5128571‏ 
a; = 0.7642857‏ 
ومن ثم » OD‏ نموذج متعدد الحدود التربيعي المطلوب هو كما يلي: 
y = 12.4285714 — 5.5128571x + 0.7642857x?‏ 
يمكنك Caf‏ تشغيل الكود التالي في بايثون: 


#data 


X-[[3],[4].[5]. [6], [7] 
Y=[2.5, 3.2, 3.8, 6.5, 11.5] 


from sklearn.linear_model import LinearRegression 
from sklearn.preprocessing import PolynomialFeatures 
poly_reg = PolynomialFeatures(degree=2) 

X poly = poly reg.fit transform(X) 

lin, reg2 = LinearRegression() 

lin reg2.fit(X. poly, Y) 

Zprint 

print(lin reg2.coef ) 

print(lin reg2.intercept ) 

array([ 0. , -5.51285714, 0.764285'71]) 
12.428571428571345 


الانحدار الخطى المتعدد 


لنفترض أن هناك متغيرات N‏ مستقلة × ,... ,21,22 وأيضًا المتغير y‏ تابع. افترض Cai‏ أن 


هناك قيمًا ملحوظة لهذه المتغيرات: 


القيم (العينات) المتغيرات (السمات) 
Qe n nie‏ عينة 1 
X11 X12 X1n‏ 21 
x2 X21 X22 X2n‏ 
XN XN1 XN1 3 XNn‏ 
y yı 72 2 Yn‏ 


يحدد نموذج الانحدار الخطي المتعدد العلاقة بين المتغير المستقل N‏ والمتغير التابع بالمعادلة 


التالية: 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


y = Bo + ByxXy ++ + BuXy 
كما هو الحال مع الانحدار الخطي البسيط . نستخدم طريقة المربعات الأقل شيوعًا للحصول‎ 
: اذا‎ -Bo Bis > Bn على التقديرات المثلى‎ 


1 X11 X21 "M XN1 yı B. 
x= : X12 X22 e XN2 Y= ic ,B = f 
1 žin Xn we Xs Yn Bu 


بعد ذلك . يمكن إظهار أن معاملات الانحدار يتم تقديمها على النحو التالي: 
B = (XTX) 3XTY‏ 

لفهم أفضل » دعونا نوضح Is‏ نريد الحصول على نموذج انحدار خطي متعدد للبيانات التالية: 

21 1 1 2 0 

X; 1 2 2 1 

y 325 65 35 50‏ 
في هذه المشكلة » يوجد متغيران مستقلان وأربع مجموعات من القيم المتغيرة. ومن (ed‏ لدينا 
2 = 7و4 = N‏ للرموز المستخدمة أعلاه. نموذج الانحدار الخطي المتعدد لهذه المشكلة 
كما يلى: 


y = Bo + 61231 + 2‏ 
الحسابات مبينة أدناه: 


1 1 1 3.25 B 
|1 1 2) ىس‎ | 5 5 
8-12 ale |] 5 1 
10 1 5.0 * 

4 4 6 
X'X-l]4 6 7 
6 7 10 
11 4 : 
T 1 2 1 
XTX)yiz|1 
(X X) E de 24 
2 
=% wd 2 
Bed xy 
2.0625 
= |-2.3750 
3.2500 
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In [i]: 


Out [1]: 


ومن ثم » فإن النموذج المطلوب هو على النحو التالي: 
و1 - y = 2.0625 — 2.3750x4‏ 
يمكنك Cad‏ تشغيل الكود JWI‏ في بايثون: 


#data 
X=[[1,1],[1,2],[2,2],[0,1]] 
Y=[8.25, 6.5, 3.5, 5.0] 
from sklearn.linear_model import LinearRegression 
lr = LinearRegression() 
Ir.fit(X, Y) 

#print 

print(lr.coef ) 
print(lr.intercept ) 
[-3.375 3.25] 

2.0625 


صفحة الانحدار على سبيل المثال: 


y = 2.0625 - 2.37502 + 3.25002» 


antal‏ الفصل السادس 


" التصنيف الثنائي » حيث يتم تخصيص كل عينة لواحدة فقط من الفئتين المحددتين 


" التصنيف متعدد العلامات هو شكل معمم للتصنيف ذو علامة واحدة. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


" يمكن تصنيف خوارزميات التعلم الآلي إلى فئتين e‏ بارامتري و لابارامتري. 

" أكبر عيب للطرق البارامترية هو أن الافتراضات التى نتخذها قد لا تكون دائمًا صحيحة. 

* عرف الخوارزميات التي ليس لها افتراضات محددة حول نوع دالة التعيين بالخوارزميات 
اللابرامترية. 

" عندما تبني خوارزمية التعلم JI‏ نموذجًا فور تلقي مجموعة بيانات إرشادية » يطلق 
عليها اسم المتعلم الطموح. 

" عندما لا تبني خوارزمية التعلم الآلي نموذجًا فور تلقي بيانات التدريب » لكنها تنتظر 
تقديم بيانات الإدخال للتقييم ‏ يطلق عليها اسم المتعلم الكسول. 

" تعتمد خوارزمية KNN‏ على افتراض أن الأشياء المتشابهة قريبة من بعضها البعض. 

" يبحثكي- اقرب جار في مساحة النمط لعينات التدريب k‏ الأقرب للعينة غير المعروفة. 

" يتم استخدام خوارزمية KNN‏ لكل من التصنيف والانحدار. 

* تختلف آلات متجهات داعمة عن خوارزميات التصنيف GEV‏ من حيث أنها تحدد 
حدود القرار التي تزيد المسافة من أقرب نقاط البيانات لجميع الفتات. 

" غالبًا ما تكون مشكلات العالم الحقيقي غير قابلة للفصل خطيًا . لذلك لا يمكنك 
استخدام آلات المتجهات الداعمة الصلبة في هذه المشكلات. 

" واحدة من أكثر خوارزميات التعلم SY‏ شيوعًا هي أشجار القرار نظرًا لعملياتها البسيطة 
جدا. 

m‏ أشجار القرار هي نوع من النماذج اللابرامترية. 

" تتبع أشجار قرار البناء استراتيجية فرق تسد. 

* تعلم شجرة القرار هو عملية من أعلى إلى أسفل. 

" تتضمن استراتيجيات التقليم العامة في أشجار القرار التقليم المسبق والتقليم اللاحق. 

c‏ يقوم التقليم المسبق بتقييم تحسين القدرة على تعميم كل فرع c‏ وإذاكان التحسن صغيرًاء 
يتم إلغاء الفرع. 

" يعيد التقليم اللاحق فحص العقد غير الورقية لشجرة قرار مطورة بالكامل » وإذا دى 
الاستبدال إلى تحسين قدرة التعميم e‏ يتم استبدال عقدة واحدة بعقدة ورقية. 

" نايف بايز هي تقنية تصنيف تعتمد على نظرية بايز التي تفترض أن جميع الخصائص 
التي تتنباً بالقيمة المستهدفة مستقلة عن بعضها البعض. 

= على عكس عمليات التصنيف . حيث يتم إجراء محاولات للتنبؤ بتسميات الفئات بشكل 
منفصل » تتنباً نماذج الانحدار بالقيم العددية. 

" في الانحدارء نريد كتابة الناتج الرقمي cy‏ والذي يسمى المتغير التابع ‏ كدالة للمدخل 
× » والذي يسمى المتغير المستقل. 
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m‏ ت 


Lo‏ هو التعلم العميق؟ 
" ماهو الفرق بين التعلم العميق والتعلم الآلى؟ 
" متى يستخدم التعلم العميق؟ 
" عيوب وتحديات التعلم العميق. 
" التعرف على الشبكات العصبية العميقة. 
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التعلم العميق هو مجموعة فرعية من التعلم الآلي الذي يعلم الآلات القيام بالأشياء التي يولد بها 
البشر بشكل طبيعي: التعلم من خلال الأنماط. على الرغم من أن هذه التقنية غالبًا ما تعتبر 
مجموعة من الخوارزميات التي "تحاكي الدماغ" e‏ فإن الوصف الأكثر ملاءمة هو مجموعة من 
الخوارزميات التي "تتعلم من خلال الطبقات". بمعنى آخر . يتضمن التعلم من خلال الطبقات 
التي تمكن الخوارزمية من إنشاء تسلسل هرمي للمفاهيم المعقدة من المفاهيم الأبسط. لقد جذب 
هذا المجال الكثير من الاهتمام في السنوات الأخيرة . وهناك أسباب وجيهة لذلك. OY‏ التطورات 
الأخيرة أدت إلى نتائج لم يكن من الممكن تصورها في السابق. 

يصف التعلم العميق الخوارزميات التي تحلل البيانات بهيكل منطقي » على غرار الطريقة التي 
يستنتجها الإنسان. لاحظ أن هذا يمكن أن يحدث من خلال التعلم الخاضع للإشراف وغير 
الخاضع للإشراف. لتحقيق هذا الهدف . تستخدم تطبيقات التعلم العميق ii‏ ذات طبقات 
(هرمية) من الخوارزميات تسمى الشبكات العصبية الاصطناعية. تصميم مثل هذه الشبكة 
العصبية الاصطناعية مستوحى من الشبكة العصبية البيولوجية للدماغ البشري ويؤدي إلى عملية 
تعلم أفضل بكثير من نماذج التعلم SY‏ القياسية. من خلال التعلم العميق . يمكن للآلات 
استخدام الصور أو النصوص أو الملفات الصوتية لتحديد وفعل أي شيء بطريقة تشبه الإنسان. 

يركز التعلم العميق على طرق التعلم المتكررة التي تعرض الآلات لمجموعات البيانات 
الكبيرة. من خلال القيام بذلك » فإنه يساعد أجهزة الكمبيوتر في العثور على خصائص من 
البيانات والتكيف مع التغييرات. يساعد التعرض المتكرر لمجموعات البيانات الآلات على فهم 
الاختلافات ومناطق البيانات والوصول إلى نتيجة موثوقة. 


لماذا التعلم العميق مهم ؟ 


يمكن أن ترتبط أهمية التعلم العميق بحقيقة أن عالمنا اليوم ينتج كميات هائلة من البيانات. 
والنتيجة هي الحاجة إلى نظام يمكنه هيكلة هذا الحجم الكبير من البيانات. يستخدم التعلم العميق 
هذا الحجم المتزايد من البيانات. يتم استخدام جميع المعلومات التي تم جمعها من هذه البيانات 
لتحقيق نتائج دقيقة من خلال نماذج التعلم العميق. يؤدي التحليل المتكرر لمجموعات البيانات 
الكبيرة إلى تقليل الأخطاء . مما يؤدي في النهاية إلى نتيجة موثوقة. يستمر التعلم العميق في 
التأثير على الأعمال والمساحات الشخصية ويخلق العديد من فرص العمل في المستقبل. 

على مدى السنوات القليلة المقبلة » من المرجح أن تستخدم الشركات BSW‏ وشركات 
التكنولوجيا الكبيرة والصغيرة التعلم العميق لترقية مجموعة واسعة من التطبيقات الحالية وإنشاء 
منتجات وخدمات جديدة (على الرغم من أن العديد من الشركات تستخدم بالفعل هذه 
التكنولوجيا الكبيرة). ستظهر خطوط وأسواق تجارية جديدة e GLS‏ والتي بدورها ستؤدي إلى 
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مزيد من الابتكار. سيكون استخدام أنظمة التعلم العميق أسهل وأكثر سهولة . ومن المتوقع أن 
التعلم العميق سيغير بشكل أساسي طريقة تفاعل الناس مع التكنولوجيا ؛ مثلما غيّرت أنظمة 
التشغيل طريقة وصول الأشخاص العاديين إلى أجهزة الكمبيوتر. 


كيف يعمل التعلم العميق؟ 


تم تصميم أنظمة التعلم العميق على غرار الشبكات العصبية في القشرة المخية الحديثة للدماغ 
البشري » حيث يحدث الإدراك عالي المستوى. في الدماغ › تنقل الخلايا العصبية معلومات 
كهربائية أو كيميائية. عند الاتصال بالخلايا العصبية الأخرى . فإنها تشكل شبكة عصبية. في 
الآلات » تتكون الخلايا العصبية بشكل مصطنع » وإذا قمت بتوصيل ما يكفي من هذه الخلايا 
inal‏ الاصطناعية » تحصل على شبكة inas‏ اصطناعية. 

لكي تكون الشبكة العصبية مفيدة e‏ فإنها تحتاج إلى تدريب. لتدريب شبكة عصبية c‏ يتم إنشاء 
مجموعة من الخلايا العصبية الاصطناعية وتخصيص "وزن" رقمي عشوائي يحدد كيفية استجابة 
الخلايا العصبية للبيانات الجديدة. مثل أي طريقة إحصائية أو تعلم آلي ‏ ترى الآلة S‏ الإجابات 
الصحيحة. لذلك إذا لم تكتشف الشبكة بدقة . على سبيل المثال » عدم رؤية وجه في صورة ماء 
فسيقوم النظام بضبط الأوزان (مقدار الاهتمام الذي يدفعه كل خلية عصبية للبيانات » من أجل 
إنتاج الاستجابة الصحيحة). أخيرًا » بعد التدريب المناسب . ستكتشف الشبكة العصبية باستمرار 
الأنماط الصحيحة في الكلام أو الصور. 

باختصار » يعتمد جوهر التعلم العميق على طريقة تكرارية لتدريب الآلات لتقليد الذكاء 
البشري. تؤدي الشبكة العصبية الاصطناعية هذه الطريقة التكرارية من خلال عدة مستويات 
هرمية. تساعد المستويات الأساسية الآلات على تعلم معلومات بسيطة. كلما انتقلت إلى كل 
مستوى جديد e‏ تجمع الأجهزة المزيد من المعلومات وتدمجها مع ما تعلمته في المستوى الأخير. 
في نهاية العملية . يجمع النظام جزءًا أخيرًا من المعلومات يمثل إدخالًا مختلطًا. تمر هذه 
المعلومات بعدة تسلسلات هرمية وتشبه التفكير المنطقي المعقد. دعنا نقسمها أكثر بمساعدة 
مثال. ضع في اعتبارك Gye Dele‏ مثل Alexa‏ أو Siri‏ لترى كيف يستخدم التعلم العميق 
لتجارب المحادثة الطبيعية. فى المراحل الأولى من الشبكة العصبية . عندما يتغذى المساعد 
الصوتي على البيانات » فإنه dis‏ تحديد الأصوات والأشياء الأخرى. في المستويات العليا « 
يلتقط معلومات المفردات ويضيف النتائج من المستويات السابقة. في المستويات التالية e‏ يحلل 
الإعلانات (الأوامر) ويجمع كل نتائجها. بالنسبة لأعلى مستوى من الهيكل الهرمي « يتم تدريب 
المساعد الصوتي بدرجة كافية ليكون قادرًا على تحليل الحوار وتقديم المدخلات Ely‏ على تلك 
المدخلات. 
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تتيح العملية الهرمية لأنظمة التعلم العميق للآلات معالحة GUL!‏ بطريقة غير 
خطية. تصنع الشبكات العصبية الاصطناعية Jio‏ الدماغ Sl‏ . والعقد العصبية 
Jio Gaio‏ الشبكة. تتعلم الشبكات العصبية الاصطناعية Hod‏ بسيطًا فى المستوق 
الأول من التسلسل الهرمى ثم تنتقل به إلى المستوى JUI‏ فى المستوى JWI‏ . يتم 
دمج هذه المعلومات البسيطة فى شىء أكثر تعقيدا ويتم Lalas‏ إلى المستوی التالى 
وهكذا. oiy‏ كل مستوى فى التسلسل الهرمى Ü ub‏ أكثر تعقيدًا من المدخلات الواردة 


من المستوى السابق . ويمكن أن يتعلم تلقائيًا استخراج السمات من مجموعات البيانات 
Jio‏ الصور gi‏ الفيديو أو YAU!‏ . بدون برمجة صريحة gi‏ قواعد تقليدية. 

فى التعلم العميق . لا نحتاج إلى برمجة صريحة لكل شىء. يمكنهم التعرف تلقائيًا 
على تمثيلات البيانات Jio‏ الصور gi‏ الفيديو أو النص . دون تقديم قواعد يدوية. يمكن 
أن تتعلم بنياتها عالية المرونة مباشرة من البيانات PLI‏ ويمكن أن تزيد من أدائها 
التنبئى إذا تم توفير المزيد من البيانات. 


كانت فكرة الخلايا العصبية الاصطناعية موجودة منذ 60 Gale‏ على الأقل» عندما طور فرانك 
روزنبيلتفي الخمسينيات من القرن الماضي "مد ركا" لكاشفات الضوء ودربه بنجاح على التمييز 
بين الأشكال الرئيسية. لكن الشبكات العصبية الأولية كانت محدودة للغايةفي عدد الخلايا العصبية 
التي يمكنها استنساخها. بمعنى أنهم لا يستطيعون التعرف على الأنماط المعقدة. ثلاث تطورات 
في العقد الماضي جعلت التعلم العميق أكثر شعبية واستدامة. 

طور جيفري هينتون وباحثون آخرونفي جامعة تورنتو طريقة يمكن من خلالها للخلايا العصبية 
البرمجية أن تدرب نفسها عن طريق الطبقات. تتعلم الطبقة الأولى من الخلايا العصبية كيفية 
التعرف على الميزات الأساسية, مثل الحافة التي تحتوي على ملايين نقاط البيانات. عندما تتعلم 
إحدى الطبقات كيفية التعرف على هذه الأشياء بدقة» فإنها تنتقل إلى الطبقة التالية والتي تدرب 
نفسها على تحديد ميزات أكثر acies‏ مثل الأنف أو الأذنين. يتم بعد ذلك تغذية ET‏ الطبقة 
إلى طبقة أخرى» والتي تدرب نفسها على اكتشاف المزيد من مستويات التجريد, وهكذاء طبقة 
تلو الأخرى. حتى يتمكن النظام بشكل موثوق من اكتشاف الظواهر المعقدة جد مثل الإنسان. 

التطور الثاني المسؤول عن التطورات الحديثةني التعلم العميق هو الكمية الكبيرة من البيانات 
المتوفرة الآن. أدت الرقمنة السريعة إلى إنتاج بيانات واسعة النطاق. وهي الأكسجين المستخدم 
في تدريس أنظمة التعلم العميق. 

doe‏ وجد فريقفي ستانفورد» بقيادة آندرو آنج» أن رقائق IGPU‏ تم اختراعها للمعالجة 
البديهية لألعاب الفيديوء يمكن استخدامها للتعلم العميق. حتى وقت قريب. كان بإمكان رقائق 
الكمبيوتر التقليدية معالجة حدث واحد فقطفي كل مرة» ولكن تم تصميم وحدات معالجة 
الرسومات للحوسبة المتوازية. أدى استخدام هذه الشرائح لتنفيذ شبكات عصبية بملايين 
الاتصالات بالتوازي إلى تسريع تدريب وإمكانيات أنظمة التعلم العميق» مما سمح للآلة بالتعلم 
في يوم واحد شيا كان يستغرق عدة أسابيعفي السابق. 
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تتكون شبكات التعلم العميق الأكثر تقدمًا اليوم من ملايين الخلايا العصبية المحاكية مع 
مليارات الروابط فيما بينها ويمكن تدريبها من خلال التعلم غير الخاضع للإشراف. هذا هو 
التطبيق العملي الأكثر فعالية للذكاء الاصطناعي الذي تم اختراعه على الإطلاق. بالنسبة لبعض 
المهام» تكون أفضل أنظمة التعلم العميق للتعرف على الأنماط على قدم المساواة مع الأشخاص. 


الفرق بين التعلم العميق والتعلم JUI‏ € 


خوارزميات التعلم العميق هي خوارزميات التعلم الآلي. ومن ثم . قد تتساءل ما الذي يجعل 
التعلم الآلي العميق مميرًا. الإجابة: بنية خوارزميات الشبكة العصبية الاصطناعية « والحاجة إلى 
تدخل بشري أقل » والحاجة إلى بيانات أكبر. 

بادئ ذي بدء » في حين أن خوارزميات التعلم الآلي التقليدية لها بنية بسيطة Gs‏ » مثل 
الانحدار الخطي أو شجرة القرار e‏ فإن التعلم العميق يعتمد على شبكة عصبية اصطناعية. تتكون 
هذه الشبكة العصبية الاصطناعية من عدة طبقات . مثل الدماغ البشري . فهي معقدة ومتشابكة. 
ثانيًا » تتطلب خوارزميات التعلم العميق تدخلًا بشريًا أقل بكثير. على سبيل المثال » إذا أردنا 
التعرف على علامة الإيقاف في صورة ما . فإن خوارزمية تعلم I‏ التقليدية تتطلب من مهندس 
تحديد الخصائص والفئات يدوبًا لفرز الصور والتحقق مما إذا كان الإخراج يطابق الحاجة. وإذا 
لم يكن الأمر كذلك » فقد كان يعدل الخوارزمية. ومع ذلك c‏ باعتبارها خوارزمية التعلم Goal‏ 
يتم استخراج الميزات GUB‏ وتتعلم الخوارزمية من أخطائها. WE‏ يتطلب التعلم العميق بيانات 
أكثر بكثير من خوارزميات التعلم الآلي التقليدية لتعمل بشكل صحيح. يعمل التعلم الآلي مع 
آلاف من نقاط البيانات e‏ بينما يعمل التعلم العميق OUS‏ بملايين النقاط. نظرًا لبنية العديد من 
الطبقات المعقدة . يتطلب نظام التعلم العميق مجموعة كبيرة من البيانات للتخلص من التقلبات 
وإنشاء تفسيرات عالية الجودة. 

وفقًا لذلك » على الرغم من استخدام التعلم الآلي والتعلم العميق بالتبادل » إلا أنهما ليسا شيئا 
واحداً. التعلم الآلي هو نطاق أوسع يستخدم البيانات لتحديد وإنشاء نماذج التعلم. يحاول التعلم 
الآلي فهم بنية البيانات باستخدام النماذج الإحصائية ويبدأ بالتنقيب في البيانات. حيث تستخرج 
المعلومات ذات الصلة يدويًا من مجموعة البيانات ثم تستخدم الخوارزميات لتوجيه أجهزة 
الكمبيوتر للتعلم من البيانات وإجراء التنبؤات. 

تم استخدام التعلم الآلي لفترة طويلة وتطور بمرور الوقت. التعلم العميق هو مجال جديد G‏ 
(ليس جديدا «Gals‏ حيث تطور التعلم العميق بمرور الوقت) يركز على التعلم والعمل LB‏ على 
الشبكات العصبية. في التعلم العميق . كلما تم تغذية المزيد من البيانات إلى الشبكة . زادت دقة 
النتائج ودقتها. يقودنا هذا إلى اختلاف آخر بين التعلم العميق والتعلم الآلي. بينما يمكن تحسين 
تعلم نماذج التعلم العميق بأحجام أكبر من البيانات . ob‏ تعلم نماذج التعلم SW‏ يقتصر على 
مستوى واحد. بمعنى ST‏ بعد مستوى معين e‏ يصلون إلى مستوى Ule‏ من التعلم e‏ وأي BLA‏ 
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المزيد من البيانات الجديدة لا تحدث فرقا. باختصار » الاختلافات الرئيسية بين هذين المجالين 
هي كما iue‏ 


حجم مجموعة البيانات: لا يعمل التعلم العميق بشكل جيد مع مجموعات البيانات 
الصغيرة. ومع ذلك e‏ يمكن لخوارزميات التعلم الآلي معالجة مجموعات البيانات 
الأصغر Cal)‏ البيانات الكبيرة ولكن ليست كبيرة مثل مجموعات بيانات التعلم 
العميق) « دون المساس بأدائها. 

هندسة الميزات: جوهر جميع خوارزميات التعلم الآلي هو هندسة الميزات وتعقيدها. 
في التعلم الآلي GLEN‏ يحدد الخبير الميزات التي يجب تطبيقها على النموذج. في 
التعلم العميق . من ناحية أخرى e‏ يتم تنفيذ هندسة الميزات U‏ من خلال الهيكل 
الهرمي للشبكات العميقة دون برمجة واضحة. 

تبعيات الأجهزة: يتطلب التعلم العميق أجهزة متقدمة لعمليات الحوسبة الثقيلة. من 
ناحية أخرى » يمكن Cal‏ تطبيق خوارزميات التعلم (UNI‏ على الأجهزة المنخفضة 
الجودة. تتطلب خوارزميات التعلم العميق وحدات معالجة الرسومات لتحسين 
العمليات الحسابية المعقدة بشكل فعال. 

وقت التنفيذ: من السهل أن نتخيل أن خوارزمية التعلم الآلي سيكون لها وقت تنفيذ 
أقصر مقارنة بالتعلم العميق. OM‏ التعلم العميق يتطلب إطارًا Gaj‏ أطول للتدريب » 
ليس فقط بسبب مجموعة البيانات الضخمة . ولكن Gad‏ بسبب تعقيدات الشبكة 
العصبية. قد يستغرق تعلم خوارزمية التعلم الآلي من als‏ إلى ساعات « ولكن 
بالمقارنةء قد تستغرق خوارزميات التعلم العميق أسابيع. 


نماذج التعلم العميق وحدها قادرة على إنشاء ميزات جديدة . بينما فى نهج التعلم «JUI‏ 


يجب 37333 الميزات بدقة من قبل المستخدمين. 


فوائد التعلم العميق 


عندما نفكر في التكنولوجياء لا يمكن أن يكون هناك مناقشة للتعلم العميق. لاداعي للقول أن 
التعلم العميق أصبح أحد الجوانب الأكثر حيوية في التكنولوجيا. اليوم » بالإضافة إلى الشركات 
والمؤسسات » حتى الأشخاص في الجانب التكنولوجي يميلون إلى التعلم بعمق. أحد الأسباب 
العديدة التي تجعل التعلم العميق يجذب انتباه الجميع هو قدرته على عمل تنبؤات دقيقة. 
باختصار . الشركات في وضع يمكنها من الاستفادة من مجموعة متنوعة من الفوائد المالية 
والتشغيلية من خلال التعلم العميق. 

قد تسأل لماذا يستخدم عدد كبير من Whee‏ التكنولوجيا التعلم العميق اليوم » كما أن عدد 
هذه الشركات التي تستخدم التعلم العميق يتزايد يومًا بعد يوم. لفهم هذا السبب » يجب على 
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المرء أن ينظر إلى الفوائد التي يمكن اكتسابها باستخدام نهج التعلم العميق. المدرجة أدناه هي 
بعض الفوائد الرئيسية لاستخدام هذه التكنولوجيا: 
" الاستخدام الأقصى للبيانات غير المهيكلة: تظهر الأبحاث أن نسبة كبيرة من بيانات 
المؤسسة غير مهيكلة . OY‏ معظمها بصيغ مختلفة مثل الصور والنصوص وما إلى ذلك. 
بالنسبة لمعظم خوارزميات التعلم SW‏ يعد تحليل البيانات غير المهيكلة أمرًا صعبًا. 
هذا هو المكان الذي يكون فيه التعلم العميق مفيدا. لأنه يمكنك استخدام تنسيقات بيانات 
مختلفة لتعليم خوارزميات التعلم العميق Cal,‏ اكتساب رؤى GES‏ بالغرض من 
العلاقات بين تحليل الصناعة ودردشة الوسائط الاجتماعية والمزيد للتنبؤ بأسعار الأسهم 
n‏ لا حاجة لهندسة الميزات: في التعلم الآلي ‏ تعد هندسة الميزات مهمة أساسية وهامة. 
هذا لأنه يحسن الدقة . وفي بعض الأحيان قد تتطلب هذه العملية معرفة المجال حول 
مشكلة معينة. تتمثل إحدى أكبر مزايا استخدام نهج التعلم العميق في قدرته على أداء 
هندسة الميزات GUE‏ في هذا النهج » تقوم الخوارزمية بمسح البيانات لتحديد الميزات 
ذات الصلة ثم دمجها لتسريع التعلم c‏ دون إخبارها صراحة. تساعد هذه الإمكانية علماء 
البيانات على توفير قد ركبير من الوقت ثم تحقيق نتائج أفضل. 
" تقديم نتائج عالية الجودة: يصاب الناس بالجوع أو التعب ويرتكبون أخطاء أحياتا. في 
المقابل « ليس هذا هو الحال عندما يتعلق الأمر بالشبكات العصبية. يمكن لنموذج التعلم 
العميق المدرب بشكل صحيح أن ينجز آلاف المهام الروتينية والمتكررة في فترة زمنية 
قصيرة نسبيًا مقارنة Ly‏ يحتاجه الإنسان. بالإضافة إلى ذلك » لن تنخفض جودة العمل 
أبدا » ما لم تحتوي بيانات التدريب على بيانات أولية لا تشير إلى مشكلة تريد حلها. 


بالنظر إلى المزايا المذكورة أعلاه والاستفادة بشكل أكبر من نهج التعلم العميق. يمكن القول إن 
التأثير الكبير للتعلم العميق على التقنيات المتقدمة المختلفة مثل إنترنت الأشياءفي المستقبل 
واضح. لقد قطع التعلم العميق شوطًا طويلاً وأصبح سريعًا تقنية حيوية يتم استخدامها باستمرار 
من قبل مجموعة من الشركاتفي مجموعة متنوعة من الصناعات. 

عيوب وتحديات التعلم العميق 

على الرغم من تزايد أهمية التعلم العميق وتطوراته . إلا أن هناك بعض الجوانب أو التحديات 
السلبية التي يجب معالجتها لتطوير نموذج التعلم العميق. مطلوب كميات كبيرة من البيانات لبدء 


تعلم خوارزمية التعلم العميق. على سبيل المثال » يتطلب برنامج التعرف على الكلام بيانات 
متعددة اللهجات ٠‏ والتركيبة السكانية » وبيانات ذات مقاييس زمنية للحصول على النتائج 


sl gl ja 


المرجوة. في حين أن شركات مثل كوكل و مايكروسوفت قادرة على جمع الكثير من البيانات 
والحصول عليها . فقد لا تتمكن الشركات الصغيرة ذات الأفكار الجيدة من القيام بذلك. أيضًا « 
في بعض الأحيان » قد لا تكون البيانات اللازمة لتدريب نموذج مبعثرة أو متوفرة. 

على الرغم من أن نماذج التعلم العميق فعالة للغاية ويمكنها صياغة حل مناسب لمشكلة معينة 
بعد التدريب مع البيانات » إلا أنها غير قادرة على القيام بذلك لحل مشكلة مماثلة وتحتاج إلى 
إعادة التدريب. لتوضيح ذلك . ضع في اعتبارك خوارزمية التعلم العميق التي تتعلم أن الحافلات 
المدرسية tls‏ ما تكون صفراء . ولكن فجأة تتحول الحافلات المدرسية إلى اللون الأزرق. ومن 
ثم » يجب إعادة تدريسها. على العكس من ذلك c‏ ليس لدى الطفل البالغ من العمر خمس سنوات 
مشكلة في التعرف على السيارة WLS‏ مدرسية زرقاء. بالإضافة إلى ذلك » فهي Cai‏ لا تعمل 
بشكل جيد في المواقف التي قد تكون مختلفة قليلاً عن البيئة التي مارسوا فيها. «DeepMind‏ 
على سبيل المثال » دربتها كوكل على هزيمة 49 لعبة Atari‏ ومع ذلك » في كل مرة يهزم فيها 
النظام مباراة واحدة » يجب alef‏ تدريبه لهزيمة المباراة التالية. يقودنا هذا إلى قيد آخر للتعلم 
العميق » وهو أنه في حين أن النموذج قد يكون جيد للغاية في تعيين المدخلات إلى المخرجات. 
فقد لا يكون جيدا في فهم سياق البيانات التي يديرونها. 

أخيرًا » أكثر نقاط الضعف المعروفة في الشبكات العصبية هي طبيعة "الصندوق الأسود". 
ببساطة » أنت لا تعرف كيف ولماذا حصلت شبكتك العصبية على ناتج معين. على سبيل المثالء 
عندما تقوم بإدخال صورة قطة إلى شبكة عصبية ويتنبأ بها الجهاز » فمن الصعب جد فهم سبب 
هذا التوقع. سيكون هذا السيناريو مهما في قرارات العمل. هل يمكنك أن تتخيل أن الرئيس 
التنفيذي لشركة كبيرة يتخذ قرارًا بشأن ملايين الدولارات دون أن تفهم سبب قيامه بذلك؟ فقط 
OY‏ "الكمبيوتر" يقول أنه يجب أن يفعل ذلك؟ بالمقارنة e‏ الخوارزميات مثل أشجار القرار ALG‏ 
للتفسير بشكل كبير. 

بشكل Gig ple‏ لأندرو il‏ يعد التعلم العميق طريقة رائعة "لبناء مجتمع قائم على الذكاء 
الاصطناعي" . والتغلب على أوجه القصور هذه بمساعدة التقنيات الأخرى هو الطريق الصحيح 
للوصول الى الهدف. 


لا نستخدم التعلم الآلى على الرغم من وجود التعلم العميق؟ 


الجواب لا. هذا لأن التعلم العميق يمكن أن يكون مكلف من الناحية الحسابية. إذاكان من الممكن 
حل مشكلة ما باستخدام خوارزمية تعلم آلي أبسط e‏ أي خوارزمية لا تحتاج إلى التعامل مع 
مجموعة معقدة من الميزات الهرمية فى البيانات c‏ فإن خيارات حسابية أقل هى الخيار الأفضل. 
لذلك » قد تكون خوارزميات التعلم الآلي مرغوبة أكثر T]‏ كنت بحاجة إلى نتائج أسرع. فهي أسرع 
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قد لا يكون التعلم العميق Cad‏ الخيار الأفضل للتنبؤ المستند إلى البيانات. على سبيل المثال» 
إذاكانت مجموعة البيانات صغيرة » فقد تؤدي أحيانًا نماذج تعلم الآلة الخطية الأبسط إلى نتائج 
أكثر دقة. ومع ذلك . يجادل بعض خبراء التعلم الآلي ob‏ شبكة عصبية عميقة جيدة التدريب لا 
يزال بإمكانها العمل بشكل جيد مع كميات صغيرة من البيانات. 

وفقًا لذلك » متى يجب استخدام التعلم الآلي أو التعلم العميق؟ ذلك يعتمد على الاحتياجات 
الخاصة بك: 

* هل تحتاج إلى نموذج دقيق للغاية؟ استخدم التعلم العميق. 

* هل تحتاج إلى نموذج خفيف الوزن؟ استخدم التعلم الآلي. 

* هل تعمل على مشكلة في رؤية الكمبيوتر؟ أصبحت شبكات التعلم العميق . مثل 
الشبكات الالتفافية » قياسية OW‏ في هذا السيناريو. 

" لست متأكداً من احتياجاتك؟ حاول حل المشكلة عن طريق التعلم JW‏ أولاً « إذا 
كانت النتائج غير مرضية بدرجة كافية » فاختبر التعلم العميق. 


١ : " i ١‏ بيه 
الخلايا العصبية الاصطناعية 


الخلايا العصبية الاصطناعية (العصبونات) هى اللبنات الرئيسية للشبكات العصبية الاصطناعية. 
rd pat gas‏ ريات ا cum ao Casey‏ من الخ الان iib gl Jesi pali‏ الأساسة 
للخلايا العصبية الاصطناعيةفي تلقي مدخلات متعددة Xp‏ ,... ,× وحساب مجموع الاوزان 2 
لهذه المدخلات باستخدام الأوزان Wi, ..., Wp‏ مجموع الاوزان Z‏ هو تحويل خطي لمدخلات 
الخلايا العصبية. بالإضافة إلى US‏ يضاف التحيز b‏ إلى مجموع الاوزان للمدخلات ويتم تمرير 
النتيجة من خلال دالة التنشيط ص c‏ مما ينتج عنه إخراج نهائي ل : 


n 
9 =g(b+) wixx) 
i=1 


الشكل 1-7 عبارة عن مخطط Sle‏ المستوى يوضح العلاقة بين متجه الإدخال ومتغير الإخراج. 
قيم المعاملات W‏ و8 غير معروفة. ومن ثم . في بداية عملية التعلم c‏ يتم تعديل هذه القيم 
حسب الرغبة. ثم يقوم نظام التعلم الآلي بتحسينها باستخدام خوارزميات التحسين. ومن ثم . 
يمكن تدريب الخلايا العصبية الاصطناعية لتقريب Ul‏ فيما يتعلق بمدخلات X‏ 
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| 
المدخلات‎ k Og) 37 


as — (my) ele dull‏ | «الميزات) 


الشكل 1-7. الخلية العصبية الصناعية. 


على الرغم من أن هذا نموذج بسيط للغاية » يمكن استخدام الخلايا العصبية الاصطناعية لأغراض 
متنوعة. إذا تم تحديد الدالة الخطوية كدالة التنشيط » يمكن استخدام الخلايا العصبية للتصنيف 
الثنائي. يطلق على هذا النوع من الخلايا العصبية المستخدمة في التصنيف الثنائي اسم بيرسيبترون 
9 ومع ذلك . OB‏ خوارزمية بيرسيبترون يمكنها فقط تصنيف مدخلاتها بشكل 
صحيح عندما تكون البيانات قابلة للفصل خطيًا حسب الفئة. لحل هذه المشكلة › تم اقتراح 
"بيرسيبترون متعدد الطبقات" » والذي يمكن رؤيته على أنه سلسلة من بيرسيبترون منظم في 
'طبقات' » كل منها يتلقى مدخلاته من البيرسيبترون السابق. 


الشبكة العطبية امامية التغذية 


تشبه الشبكة العصبية امامية التغذية الخلايا العصبية الاصطناعية التي تمت مناقشتها سابقاً. 
والغرض منه Cal‏ هو تقريب دالة مدخلات ×. ومع ذلك » بدلا من الاقتصار على دوال بسيطة 
للغاية تتكون من مجموعة الاوزان فقط مع دالة التنشيط e‏ تجمع الشبكات العصبية امامية التغذية 
بين عدة عصبونات لتشكيل رسم بياني موجه. يظهر مثال للشبكة العصبية امامية التغذية في 
الشكل 2-7. تتكون كل شبكة عصبية امامية التغذية من مدخلات (يشار إليها dole‏ باسم طبقة 
الإدخال) « وعدد عشوائي من الطبقات الوسيطة للخلايا العصبية تسمى الطبقات المخفية؟. 
وطبقة تحسب المخرجات تسمى طبقة المخرجات. هذا النهج القائم على الطبقة هو المكان 
الذي يسمى التعلم العميق » OM‏ عمق الشبكة العصبية امامية التغذية يصف عدد الطبقات التي 
تشكل الشبكة العصبية امامية التغذية. عندما تتصل كل خلية عصبية في طبقة ما بجميع الخلايا 
العصبية في الطبقة التالية » فإنها تسمى شبكة متصلة بالكاملة ؛ تسمى الطبقات التي تظهر هذا 
السلوك طبقات متصلة بالكامل. شبكة العصبية امامية التغذية البسيطة الموضحة Jung‏ 7- 
2 هي الآن أقوى بكثير من الخلايا العصبية الاصطناعية. يمكن إثبات أنه يمكن Ee‏ الشبكات 


1 hidden layers 


2 fully-connected network 
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العصبية أمامية التغذية ذات طبقة مخفية واحدة لتقريب أي دالة مستمرة. تمثل الشبكات العصبية 
امامية التغذية أساس معظم تطبيقات التعلم العميق. على سبيل المثال ٠‏ الشبكات العصبية 
الالتفافية1 ذات الشعبية الكبيرة والناجحة هى مجرد امتدادات للشبكات العصبية امامية المغذية 
القياسية. 


Hidden Layer 
Input layer Weights (j € Nso) Transfer 


(i € N59) v[i, j] function 
21 vii >| +) Weights 
w[j, k] 
1 
/ 
/ 
/ 


v12 

vij 

/ Output Layer 

/ k ENso) Transfer 

/ function 

- e») > wat (35 +P) > Uk 
| b i 
N / 


Ti vj يل‎ p [Bias bj. 
|/ B : 


{/ r 
Bias bj 


w11 


Features X | (%2 


شكل 2-7. LII‏ البسيطة لشبكة العصبية امامية التغذية 
j‏ ين I c . 1 I‏ ڊيه 


G2‏ من تحسين الشبكات العصبية امامية التغذية هو العثور تلقائيًا على الأوزان والتحيزات 
التي تقارب إخراج الشبكة المستهدفة y‏ مع الإدخال ×. من أجل تحقيق هذا الهدف « من 
الضروري تحديد مقياس لمقدار تقدير الشبكة العصبية امامية التغذية. يشار إلى هذا المعيار عادة 
باسم دالة الخسارة” أو دالة J )0( USI‏ » حيث تصف معاملات الشبكة (الأوزان والتحيزات). 
إعطاء مجموعة من N‏ العينات التدريبية xp = |, xr, ..., xr]‏ والعلامة ذات الصلة = y‏ 
ye, YN]‏ ز]ء ble‏ ما يتم حساب J(0)‏ على أنه متوسط دالة الخسارة لكل عينة 
LO (xr; 0), yi)‏ حيث (0 :»)9 ناتج شبكة العصبية امامية التغذية Giy e‏ للتدريب عينة Xr,‏ 
كمدخلات ومعاملات الشبكة ©: 


1 N 
J) ==) Leni 8) yd 


! Convolutional Neural Network 


? loss function 


3 cost function 
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dole‏ ما تكون قيمة دالة الخسارة الأصغر مساوية لتقريب أفضل دالة للشبكة العصبية امامية 
التغذيةء لذلك يمكن صياغة طريقة التدريب للشبكة العصبية امامية التغذية كمشكلة تحسين c‏ 
حيث يكون الهدف هو تقليل دالة الخسارة (0)/ Gà s‏ ل معاملات الشبكة هي 6. يتم ذلك Bole‏ 
باستخدام نوع من الخوارزمية يسمى الانحدار الاشتقاقي. 

الانحدار الاشتقاقى! 

بالنظر إلى دالة الخسارة ذات القيم الحقيقية ل (0)[ « فإن الغرض من الانحدار الاشتقاقي 
(التدرج المتناقص) هو إيجاد الحد الأدنى المحلي (0)/ فيما يتعلق بالمعاملات 0. في حين أنه 
قد يكون من الممكن تحليليًا حساب الحد الأدنى من الخسارة لدوال الخسارة البسيطة . إلا أنه 
من المستحيل بالنسبة للدوال الأكثر Mas‏ ذات المعاملات المتعددة » مثل دوال الخسارة 
لشبكات العصبية امامية التغذية بملايين من المعاملات. على عكس الحسابات التحليلية للحدود 
الدنيا » فإن الانحدار الاشتقاقي هو نهج رقمي يبدأ باختيار معاملات عشوائية ويتحرك بشكل 
متكرر في الاتجاه السلبي لتدرج الدالة للعثور على الحد الأدنى المحلي. بالنسبة لعينة تدريبية 
واحدة ,مد مع الناتج المستهدف المقابل Yi‏ يتم حساب الانحدار الاشتقاقي على النحو التالي: 


—e-— -Vel(x;; o), y;) 


يتم الحصول بعد ذلك على الانحدار النهائي لدالة الخسارة (0) [ عن طريق حساب متوسط 
جميع التدرجات في مجموعة التدريب xp‏ بأكملها: 


N 
_ 1 
gg = nD, Vr 
i-1 


من خلال تحديد عامل إيجابي يتحكم في حجم الانحدار الاشتقاقي » يسمى معدل التعلم” T]‏ « 
يمكن تعريف قانون الانحدار الاشتقاقى بتحديث معاملات الشبكة العصبية امامية التغذية على 
أنه: l‏ 
+n ¬ ge‏ 0= 0 

اعتمادًا على القيمة الأولية للمعاملات e‏ من الممكن أن يجد الانحدار الاشتقاقي الحد الأدنى 
العالمي ٠ JCO)‏ لكن هذا غير مضمون ما لم يكن J(8)‏ محديًا. النقطة المهمة هي أنه لكي يتقارب 
الانحدار الاشتقاقي . يجب أن تكون دالة الخسارة سلسة وتوفر تدرجات في كل مكان. هذا هو 
السبب في أن دالة الخسارة الانتقائية في بعض الأحيان تختلف dole‏ عن الغرض الفعلي ويتم 
استخدام دالة خسارة بديلة بدلاً من ذلك. على سبيل المثال e‏ بدلا من تحسين العدد الصحيح 


gradient descent‏ ا 


0 learning rate 
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لعينات التصنيف في مشكلة تصنيف الصورة c‏ يمكننا تحسين الموثوقية المتوقعة وضمان الهدف 
لكل فئة إلى jos‏ الخطأ التربيعي (MSE)‏ في حين أن عدد العينات المصنفة pe‏ سيكون 
Nets‏ وبالتالي غير متساو » سيكون MSE‏ في كل مكان ويوفر تدرجات مفيدة لتقليل 
التدرجات. L UL Je jes e‏ يتم استخدام الاحتمال اللوغاريتمي السلبي لفئة حقيقية 
كبديل للخسارة 1-0. يسمح اللوغاريتم السلبي للنموذج بتقدير الاحتمال الشرطي cola‏ فيما 
يتعلق بالمدخلات e‏ وإذاكان النموذج Hob‏ على القيام بذلك بشكل جيد » فيمكنه تحديد الفئات 
التي تسفر عن أقل خطأ تصنيف في التوقع الرياضي. 

الحساب الكفوء للانحدار الاشتقاقى فى الانتشار الخلفى 


ربما تكون خوارزمية الانتشار الخلفي هي اللبنة الأساسية في الشبكة العصبية. يعد الانتشار الخلفي 
في الأساس طريقة ذكية لحساب التدرجات بشكل فعال في الشبكات العصبية متعددة الطبقات. 
بمعنى آخر » يتعلق الانتشار الخلفي بحساب الانحدار الاشتقاقي للدوال المتداخلة « والذي يتم 
تمثيله كرسم بياني حسابي باستخدام قاعدة السلسلة. ببساطة » بعد كل تمريرة امامية عبر شبكة 
يقوم الانتشار الخلفي بتمريرة للخلف أثناء ضبط معاملات النموذج (الأوزان والتحيزات). 
قبل وصف الخوارزمية » دعنا نصف رمرًا GSB‏ على مصفوفة لفهم أفضل. يصف الوزن Wik‏ 
الوزن الذي يربط الخلايا العصبية elk‏ في الطبقة 1 - 1 بالخلايا العصبية j‏ في الطبقة 1. من 
هذه الأوزان . يمكن تكوين مصفوفة WI‏ والتي تسمى مصفوفة الوزن للطبقة sell‏ حيث يكون 
مدخل الصف زام والعمود plk‏ مساويًا ل s Wie‏ للخلايا العصبية K‏ في الطبقة 1 - 1 
والخلايا العصبية J‏ في الطبقة / « تكون هذه المصفوفة على النحو التالي: 

Wi, cU wik 

wi =| : : 

1 1 

Wn eee Wik 
من الخلايا‎ y] ومخرجات التنشيط المسبق" ل /2ومخرجات‎ D] وبالمثل » يمكن توجيه تحيزات‎ 
على التوالي:‎ «yl أ2 و‎ cb! العصبية في الطبقة 1 ك‎ 


_ (1-1) 
b! zi = 2, "o T bj 
p! = : 5 z! = : n y = 
b! = l (l-1) pl 
J z = 2, "o t bj 


كخطوة أولى في خوارزمية الانتشار الخلفي . يتم حساب نتائج الانتشار الخلفي. خلال هذه 
الخطوة . تتلقى الشبكة العصبية للتغذية عينة تدريب واحدة xr,‏ کمدخلات وتحسب مخرجات 


yi- pi) 


y} = e) 


1 pre-activation 


"ERE 


كل طبقة y!‏ بالإضافة إلى مخرجات التنشيط المسبق لكل zl iib‏ إلى الطبقة النهائية D‏ 
بالإضافة إلى ذلك . Gay‏ للإخراج النهائي لشبكة التغذية العصبية النهائية ر « والإخراج 
المستهدف yj‏ لعينة التدريب هذه c‏ يتم حساب خطأ كل عينة L(y, y)‏ يسمى هذا بالانتشار 
الامامي لأنه يتم حساب مخرجات الشبكة بشكل تكراري لكل طبقة » من طبقة الإدخال إلى طبقة 
الإخراج. بعد ذلك » يتم تنفيذ الانتشار الخلفي للتدرج عن طريق Che‏ التدرج gy‏ في ab‏ 
الإخراج D‏ فيما يتعلق بإخراج الشبكة العصبية للتغذية: 
Gy = VyoL(y”,y,)‏ 
نظرًا LY‏ مهتمون بالتدرج فيما يتعلق بإخراج التنشيط المسبق » فإننا نحسبه عن طريق إجراء 
عملية ضرب هادامارد' © بين تدرج التنشيط اللاحق5 ومشتق دالة التنشيط: 
)’2 م 970 = 92 
ثم يمكن استخدام تدرج التنشيط السابق هذا gP‏ لحساب تدرجات دالة التكلفة J(8)‏ فيما 
يتعلق بمصفوفة الوزن WP‏ ومتجه التحيز bP‏ 
Vy»L(yP, y.) = 92‏ 
Vyol(y?,y,) = g2 VP)?‏ 
للوصول إلى الانحدار الاشتقاقي لتنشيط المسبق الشبكة للطبقة السفلية التالية )1 — (D‏ نقوم 
ببساطة بضرب مصفوفة التحويل (WP)?‏ بواسطة تدرج التنشيط المسبق للطبقة الحالية 92 
V,s-aL(yP,y,) = (WY oP‏ ع - 99 
يمكن الآن تكرار الخطوات المذكورة أعلاه عدة مرات حتى يتم تحديد كل تدرج فردي » Gb,‏ 
لكل وزن وتحيزء في الطبقة الأولى c‏ مما يؤدي إلى التدرج النهائي لكل عينة. 
go, = Vel. (xr; 0). y;)‏ 


من الأمثلة التدريبية ,م يصبح الناتج المستهدف p‏ ومن ثم » باستخدام خوارزمية الانتشار 
الامامي . أصبح لدينا OW‏ طريقة لحساب الانحدار الاشتقاقي لعينة تدريبية واحدة في المعادلة. 


ge, = VoL(9(xr,: 0), Y,) 
وهو أمر ضروري لتحديث معاملات الشبكة العصبية للتغذية الامامية بسبب الانحدار الاشتقاقي.‎ 


1 Hadamard product 


2 post-activation 
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ومع ذلك c‏ فإن العيب الرئيسي في تحسين الشبكات العصبية من خلال الانتشار الخلفي 
والانحدار الاشتقاقي هو مشكلة تلاشي الانحدار". كما هو موضح أعلاه » يتم حساب الانحدار 
الاشتقاقي لوزن معين عن طريق الانتشار الامامي من الإخراج إلى الخلايا العصبية المقابلة. في 
مسار الانتشار الامامي هذا . يتم ضرب التدرجات بشكل متكرر من الخلف إلى الأمام باستخدام 
قاعدة السلسلة في حساب التفاضل والتكامل. وبالتالي . عندما تكون التدرجات صغيرة (والتي 
يمكن أن تحدث » على سبيل المثال c‏ عند استخدام دوال التنشيط المشبعة” (Sigmoid‏ « يمكن 
أن يؤدي ذلك إلى تدرجات صغيرة للخلايا العصبية في الطبقات الأمامية للشبكة » مما يؤدي إلى 
بطء التعلم لهذه الخلايا العصبية. 

في حين أن هذه مشكلة في مرحلة الانتشار الخلفي وتلاشي الانحدار » إلا أن الأساليب الحديثة 
للتعلم العميق تعالج هذه المشكلة بشكل أكبر. لا يشبع المنشط ReLU‏ حجم التدرج في منطقة 
الإدخال الإيجابية. نتيجة GU‏ لا تواجه تلاشى الانحدار فى تلك المنطقة. بالإضافة إلى ذلك 
هناك نوع جديد من بنية الشبكة يسمى ResNet‏ سجاوه اا العصبية أو الطبقات ذات 
التدرجات المتلاشية باستخدام مسارات مختصرة e‏ مما يسمح للتدرجات بالتدفق عبر شبكات 
أعمق بكثير دون تجاوز. من الممكن Lal‏ تثبيت توزيع المدخلات عن طريق تسوية الطبقات 
الوسطى باستخدام التسوية الجماعيةة c‏ وبالتالي تقليل احتمالية التعثر في الحالات المشبعة. 


الانحدار الاشتقاقى العشوانى 


في حين أن الانحدار الاشتقاقي القياسي باستخدام الانتشار الخلفي هو طريقة مفيدة للتدريب 
الآلي للشبكات العصبية الأمامية c‏ عندما تكون مجموعة التدريب كبيرة جد » يتطلب الانحدار 
الاشتقاقي الكثير من الموارد الحسابية. OY‏ خطوة تحديث واحدة فقط تتطلب حساب جميع 
التدرجات لجميع عينات التدريب. 

الغرض من الانحدار الاشتقاقي العشوائي 4 (SGD)‏ هو تسريع عملية التعلم مع تغيير طفيف 
في إجراء الانحدار الاشتقاقي القياسي. يتمثل الاختلاف الرئيسي بين SGD‏ والانحدار الاشتقاقي 
القياسي في أن SGD‏ تحسب تدرج دالة الخطأ )0( Voj‏ عن طريق حساب تدرجات الخطأ لكل 
عينة فقط لمجموعة فرعية صغيرة من M‏ عينة تدريبية مختارة Cl pte‏ من مجموعة التدريب 
>y = [Xu Xu] € Xr‏ مع الناتج المستهدف المقابل € Yu = Du, Yan]‏ 
تسمى هذه المجموعة الفرعية من العينات التدريبية بالدفعة الصغيرةة M‏ هو عدد حالات هذه 


1 vanishing gradient problem 
2 saturating 

? batch normalization 

* Stochastic Gradient Descent 


? minibatch 
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الدفعات الصغيرة ‘ والتي تسمى حجم الدفعة الصغيرة. يمكن تلخيص تقدير التدرج باستخدام 


الدفعات الصغيرة: 
ix 1x‏ 
Voj(8) = Va € > L(x: 0), 7) = Va =Y. L (P(x: 9).)‏ 
i=1 i=1‏ 


الانحدار الاشتقاقى مع الزخم' 

كما ذكرنا Gle‏ > يمكن استخدام الانحدارات الاشتقاقية لإيجاد الحد الأدنى المحلي للدالة. 
ومع ذلك » اعتمادًا على شكل الدالة » غالبا ما يؤدي النهج التكراري للانحدار الاشتقاقي إلى 
عدد كبير من الخطوات ؛ الانحدار الاشتقاقي بطيء e‏ خاصة بالنسبة للدوال التي تتضمن العديد 
من المناطق شبه المسطحة ذات المنحدرات الصغيرة. لحل هذه المشكلة « لماك الزخم إلى 
خوارزمية الانحدار الاشتقاقي. الفكرة الرئيسية للزخم هي إضافة ذاكرة قصيرة المدى إلى الانحدار 
الاشتقاقي . والذي يسمى GC‏ التسريع. UY a y‏ يتم تغيير خطوة تحديث الوزن على النحو 


التالي: 

N 

B 1 
gg = م694‎ + 2 9o, 

i-1 

;0—19— 0 
عندما تكون gg‏ الأولية صفرًا N i‏ معدل التعلم و معايير الزخم. 
تحسين معدل التعلم التكبة 


على الرغم من أن SGD‏ هي طريقة تحسين قوية للغاية لتدريب الشبكات العصبية c‏ إلا أنه لا يزال 
من المهم اختيار أفضل معدل تعليمي N‏ لكل مسئلة. إذا تم اختيار 7 كبير جد » فقد يتقلب 
التدريب أو لا يتقارب أو يتجاوز الحدود الدنيا المحلية ذات الصلة. في المقابل c‏ إذا تم اختيار 
معدل تعليمي صغير جد » فإنه يؤخر بشكل كبير عملية التقارب. ومن ثم » فإن الأسلوب الشائع 
للتحايل على هذا هو استخدام معدل اضمحلال التعلمة. على سبيل المثال « باستخدام الانحدار 
الاشتقاقي . يمكن تقليل معدل التعلم إلى حد ما على مدار عدة فترات. هذا يسمح بقدر أكبر من 
التعلم في بداية التدريب ومعدل تعلم أقل في نهاية التدريب. ومع ذلك e‏ فإن ài de‏ الانحلال 
هذه هي Call‏ معامل فائق في حد ذاتها ويجب تصميمها بعناية اعتمادًا على التطبيق. 


! Momentum 
2 $ 
acceleration 


3 rate decay 
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الهدف من oes‏ معدل التعلم التكيفي هو حل مشكلة إيجاد معدل التعلم الصحيح. في هذه 
الأساليب Ve‏ يعد معدل التعلم متغيرًا شاملاً ‏ ولكن Vay‏ من ذلك يكون لكل معامل قابلة للتعليم 
معدل التعلم الخاص le‏ في حين أن هذه الطرق لا تزال بحاجة إلى معاملات . فإن الحجة 
الرئيسية هي أنها تعمل بشكل جيد مع نطاق أوسع من التكوينات ؛ في كثير من الأحيان عندما 
يستخدمون فقط المعاملات الفائقة الافتراضية المقترحة. 


التدابير 


dl‏ جنب مع تقنية الانحدار الاشتقاقي e‏ يوفر الانتشار الخلفي طريقة فعالة لتحسين معاملات 
تدريب الشبكة العصبية لتقليل دالة خطأ معينة. ومع ذلك » فإن تدريب الشبكات العصبية في 
الممارسة العملية يعوقه عدد من العوامل. Wal‏ يؤدي الجمع بين العديد من طبقات المعالجة 
غير الخطية فى الشبكة العصبية إلى جعل دالة الخطأ الناتجة غير محدبة للغاية. يعنى غير محدب 
أنه عند تقليل دالة الخطأ للشبكة عن طريق أساليب الانحدار الاشتقاقي . ig Y‏ ضمان بأن 
نقطة ثابتة معينة هي الحد الأدنى العالمي. أيضًا . قد يكون للطريقة التي يتم بها تهيئة المعاملات 
قبل التحسين وتقنية الانحدار الاشتقاقي المستخدمة تأثير قوي جد على أفضل حل تم العثور 
عليه أثناء التحسين. Cal‏ . الشبكات العصبية امامية التغذية متعددة الطبقات عرضة لمشكلة 
تلاشي الانحدار والانفجار. لذلك e‏ هناك حاجة لاتخاذ تدابير لمنع هذه المشاكل. 


تهينة الاوزان الاولية 


في الشبكات العصبية . يجب اختيار القيمة الأولية للأوزان بعناية فائقة. على سبيل I] «JEJE‏ 
كان للعديد من الخلايا العصبية في طبقة مخفية نفس الأوزان . فسوف تتلقى نفس التدرجات. 
ومن ثم » فإنهم يحسبون نفس النتائج e‏ مما يؤدي إلى إهدار سعة النموذج. عادة e‏ يتم تهيئة أوزان 
الشبكة العصبية باستخدام توزيع غاوسي بمتوسط صفر وانحراف معياري صغير. ومع ذلك « OB‏ 
المشكلة تكمن في أن توزيع ناتج LE‏ عصبية تمت تهيئتها lene‏ له تباين يزيد مع عدد 
المدخلات. لتسوية تباين الإخراج لكل خلية عصبية إلى 1ء ما عليك سوى استخدام التوزيع 
الطبيعي القياسي وقياس الوزن tle‏ على الجذر التربيعي لسعة الإدخال' Min‏ 6 وهو عدد 
المدخلات: 
N (0,1)‏ 
Nin‏ 

وبالمثل « Gloret eB‏ و Benjiou‏ بتحليل الانحدارات الاشتقاقية للانتشار الخلفي وأوصيا 
بالتهيئة (المعروفة باسم تهيئة القيم الاولية Javier‏ أوغ106©).: 


Wo 


1 fan-in 
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2 
Wor |— — —— 1 
١ Nin + Nout ( ) 


حيث يصف Nout‏ عدد وحدات الإخراج. تم تقديم المواصفات خصيصًا للخلايا العصبية مع 
تنشيط :ReLU‏ 


التنظيم 
حتى الآن » أشرنا فقط إلى تدريب شبكة تغذية عصبية بالانحدار الاشتقاقي والانتشار الخلفي 
باستخدام مجموعة تدريب Xp‏ مع علامات ر المقابلة. بينما يمكننا بهذه الطريقة تدريب شبكتنا 
العصبية على التنبو بمخرجات مجموعة التدريب ٠‏ إلا أن هذا لا يعنى بالضرورة أنها قادرة على 
التنبؤ بدقة بمخرجات البيانات غير المرئية. لذلك » كما هن كر الفصل 5« يتم تقديم 
مجموعتين إضافيتين من البيانات للتحسين c‏ مجموعة التحقق من الصحة والمجموعة التجريبية. 
كل مجموعات البيانات الثلاث مستقلة عن بعضها البعض . لذلك لا توجد OVE‏ مشتركة 
بينها. 

تستخدم مجموعات التحقق من الصحة في الشبكات العصبية بشكل شائع لضبط المعاملات 
الفائقة للنموذج مثل AS‏ الشبكة أو معدلات التعلم. تستخدم مجموعة الاختبار فقط للتقييم 
النهائي من أجل تقييم أداء الشبكة في البيانات غير المرئية. إذا لم تكن الشبكة العصبية معممة 
بشكل جيد » أي أن خطأ التدريب أقل من Les‏ الاختبار » كما ذكرنا سابقا » تسمى هذه الحالة 
الضبط الزائد -Overfitting‏ من ناحية أخرى « يُطلق على السيناريو العكسي الاستدارة عندما 
تكون خطأ الاختبار أقل بكثير من خطأ التدريب e‏ الضبط الناقص (الشكل 3-7). عادة ما يرتبط 
الضبط الزائد والضبط الناقص في الشبكات العصبية العميقة ارتباطًا مباشرًا بقدرة النموذج. ترتبط 
سعة النموذج لشبكة imas‏ عميقة ارتباطًا مباشرًا بعدد المعاملات داخل الشبكة. تحدد سعة 
النموذج مدى قدرة الشبكة العميقة على ملاءمة مجموعة واسعة من الدوال. إذا كانت السعة 
منخفضة ee‏ فقد لا تتمكن الشبكة من تكييف مجموعة التدريب (الضبط الناقص) . بينما قد 
تؤدي سعة النموذج الكبيرة جد إلى الاحتفاظ بعينات التدريب (الضبط الزائد). عادة لا يمثل 
الضبط الناقص مشكلة بالنسبة للشبكات العصبية العميقة. هذا لأنه يمكن حل هذه المشكلة 
باستخدام بنية شبكة أقوى أو أعمق مع المزيد من المعاملات. ومع ذلك » من أجل التمكن من 
استخدام الشبكات العميقة OULU‏ الجديدة وغير المرئية » يجب السيطرة على الضبط الزائد. 
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إن عملية تقليل تأثير الضبط الزائد أو منعه (ليس تماما. CU‏ تسمى التنظيم. في هذا القسم 
> نصف بإيجاز الأساليب الأكثر شيوعا للتنظيم في الشبكات العميقة. 


المجموعة التدريبية س 
المجموعة التجريبية س 


1 2 3 4 5 6 7 8 9 10 


زمان (دوره) 

الشكل 3-7. سلوك التعميمني منحنى التعلم وفق معيار الدقةفي البيانات التدريبية والتجريبية 
التوقف المبكر 
عندما تكون سعة النموذج لشبكة عميقة كبيرة بما يكفي لتكون قادرة على الضبط الزائد » فمن 
الشائع ملاحظة أن الخطأ التدريبي يتناقص بشكل طردي حتى التقارب » في حين أن خطأ التحقق 
من الصحة يتناقص في البداية ويزداد مرة أخرى بعد فترة. الغرض من التوقف مبكرًا هو تنظيم 
الشبكة العميقة من خلال إيجاد معاملات الشبكة عند النقطة بأقل خطأ للتحقق من الصحة. 
باستخدام معاملات الشبكة مع أقل خطأ للتحقق من الصحة . من المحتمل أن تكون الشبكة 
معممة بشكل أفضل للبيانات غير المرئية. OY‏ النموذج يحتوي على تباين منخفض في هذه 
المرحلة ويعمم البيانات جيدا. يزيد تدريب النموذج الإضافي من تباين النموذج ويؤدي إلى 
الضبط الزائد. 
الحذف العشواني2 
يشير "الحذف العشوائي" في الشبكات العصبية إلى عملية تجاهل عشوائي لعقد محددة في طبقة 
ما أثناء تدريب الشبكة. بمعنى آخر » تتم JG]‏ الخلايا العصبية المختلفة مؤقتا من الشبكة. أثناء 
التدريب c‏ يؤدي الحذف العشوائي إلى تغيير 
فكرة تعلم جميع أوزان الشبكة إلى تعلم جزء 
صغير فقط من أوزان الشبكة. من الشكل 
المقابل . يمكن ملاحظة أنه فى مرحلة 
التدريب القياسية » يتم إشراك جميع الخلايا 


(ب) شيكدى عصبى با اعمال Gir‏ تصادفى (I)‏ شبكدى عصبى استاندارد 


i 3 ; 1‏ 
راجع الفصل الخامس من الكتاب. 


2 Dropout 
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العصبية ‏ ومن خلال الحذف العشوائي e‏ يتم مشاركة عدد قليل فقط من الخلايا العصبية المختارة 
العصبية لمنع بعض الخلايا العصبية من السيطرة على بعض الميزات. يساعدنا هذا النهج « على 
الرغم من بساطته » على تقليل التكرار وتمكين بنى شبكات أعمق وأكبر يمكنها عمل تنبؤات 
جيدة بشأن البيانات التي لم تراها الشبكة من قبل. 
واحدة من المشاكل في تدريب الشبكة العصبية بالإضافة إلى الانحدار الاشتقاقي هي مشكلة تغيير 
المتغيرات الداخلية للشبكة. تنشأ هذه المشكلة لأن المعاملات تتغير باستمرار أثناء عملية 
التدريب » والتي بدورها تغير قيم دوال التنشيط. يؤدي تغيير قيم الإدخال من الطبقات الأولية 
إلى الطبقات التالية إلى تقارب أبطأ أثناء عملية التدريب » لأن بيانات التدريب للطبقات اللاحقة 
غير مستقرة. بمعنى ST‏ الشبكات العميقة هي مزيج من عدة طبقات ذات دوال مختلفة » وكل 
iib‏ لا تتعلم Las hi‏ تعلم التمثيل العام من بداية التدريب . ولكن عليها أيضًا أن تتقن 
التغييرات المستمرة في توزيعات المدخلات Gay‏ لما سبق. طبقات. بينما يقوم المُحسّن 
بتحديث المعاملات على افتراض أنها لا تتغير في الطبقات الأخرى ويقوم بتحديث جميع 
الطبقات في نفس الوقت e‏ سيؤدي هذا إلى نتائج غير مرغوب فيها عند الجمع بين دوال مختلفة. 
تم اقتراح التسوية الجماعية' للتغلب على هذه المشكلة لتقليل عدم الاستقرار وتحسين 
الشبكة. في هذه الطريقة » نقوم بتسوية بيانات الإدخال للطبقة بحيث يكون لها متوسط صفر 
وانحراف معياري واحد. من خلال وضع التسوية الجماعية بين الطبقات المخفية وإنشاء خاصية 
تباين مشتركة » نقوم بتقليل التغييرات الداخلية لطبقات الشبكة. 


الشبكة A ١١ TT ١١‏ ره 


الشبكات العصبية المتكررة RNN?)‏ هي نوع من الشبكات العصبية الاصطناعية المصممة 
لاكتشاف الأنماط في تسلسل البيانات e‏ مثل النص والجينوم والكتابة اليدوية والكلمات المنطوقة 
وبيانات السلاسل الزمنية وأسواق الأسهم وما إلى ذلك. الفكرة من وراء هذه الشبكات العصبية 
هي أنها تسمح للخلايا بالتعلم من الخلايا المرتبطة سابقاً. يمكن القول أن هذه الخلايا لها "ذاكرة" 
بطريقة ما. ومن ثم » فإنهم يبنون معرفة أكثر تعقيدا من بيانات الإدخال. 

تقضي الشبكات العصبية المتكررة على أوجه القصور في الشبكات العصبية ذات التغذية 
الأمامية. وذلك OY‏ شبكات التغذية الامامية يمكنها فقط قبول مدخلات ذات حجم ثابت وتنتج 


1 Batch normalization 


? Recurrent neural network 
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فقط مخرجات ذات حجم ثابت وغير قادرة على النظر في المدخلات السابقة بنفس الترتيب. 
من خلال النظر فى المدخلات السابقة للتسلسل . تكون الشبكة العصبية المتكررة قادرة على 
التقاط التبعيات be‏ تكون شبكة العصبية امامية التغذية غير قادرة على ذلك. 

تأخذ الشبكات العصبية المتكررة تسلسلاًكمدخلات وتقيم الشبكة العصبية لكل خطوة زمنية. 
يمكن اعتبار هذه الشبكات على أنها شبكة عصبية لها حلقة تسمح لها بالحفاظ على الحالة. عند 
التقييم . تفتح الحلقة من خلال الخطوات الزمنية للتسلسل كما هو موضح في الشكل المقابل. 
هذه الحلقات أو الروابط المتكررة 0 0 0 0 
pon | s il. e‏ 72 £ 2 ۶ 
بالشبكات العصبية المتكررة. حقيقة 
أن شبكة المتكررة تتكون من حلقة 
تعني أنه يمكن إرجاع ناتج خلية 
عصبية واحدة فى نقطة زمنية واحدة 
إلى نفس الخلية العصبية في نقطة زمنية أخرى. والنتيجة هي أن الشبكة لديها ذاكرة لعمليات 
التنشيط السابقة (وبالتالى المدخلات السابقة التى لعبت os‏ : هذا التنشيط). 

يعن ااال كل Ras i dai‏ عسات الخطرة الرمدة والحالة Lia]‏ الشركة الي 
المتكررة. يتم تحديث الحالة المخفية h‏ في كل مرحلة زمنية ويتم نشرها إلى المرحلة التالية. بهذه 
الطريقة » يمكن للشبكة العصبية المتكررة عرض المدخلات السابقة عبر الوضع المخفي. 

يتم تدريب الشبكات العصبية المتكررة باستخدام طريقة تسمى الانتشار الخلفي بمرور الوقت. 
في هذه الخوارزمية > يجب حساب الانحدارات الاشتقاقية في كل خطوة زمنية باستخدام قاعدة 
السلسلة. عندما تكون التسلسلات طويلة » يتطلب الإصدار اللاحق الكثير من الضرب. يمكن أن 
يؤدي هذا إلى مشكلة تسمى تلاشي أو انفجار التدرجات. عندما تتقلص التدرجات . أو بعبارة 
أخرى . يختفي التدرج . ويتم تصغير تحديثات التعلم وتتوقف عن التعلم. في المقابل » تؤدي 
التدرجات الكبيرة إلى قفزات في خطوات التعلم وتمنعها من الاقتراب من حل جيد. تحد مشكلة 
التلاشي والانفجار المتدرج من قدرة الشبكات العصبية المتكررة على تعلم التبعيات طويلة 
المدى. وبالتالي . تم تطوير شبكات عصبية متكررة أخرى لمعالجة هذه المشكلة. 


الانتشار الخلفى بمرور الوقت 


يتم تدريب الشبكات العصبية المتكررة بمرور الوقت بواسطة نوع خاص من خوارزمية الانتشار 
الخلفي تسمى الانتشار الخلفي بمرور الوقت. مثل خوارزمية الانتشار الخلفي في شبكة العصبية 
امامية التغذية » تستخدم هذه الخوارزمية قاعدة السلسلة لحساب التدرج. يعد الانتشار الخلفي 
في الشبكات العصبية المتكررة أكثر صعوبة بعض الشيء بسبب الطبيعة المتكررة للأوزان 
واختفائها بمرور الوقت. LY‏ نحتاج إلى تمديد الرسم البياني الحسابي ل RNN‏ مرة واحدة 
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للحصول على التبعيات بين المتغيرات ومعاملات النموذج. بعد ذلك « باستخدام الانتشار 
الخلفي وقاعدة السلسلة c‏ يتم حساب التدرجات وتخزينها. GE‏ لأن التسلسلات يمكن أن تكون 
طويلة » فقد تكون التبعيات طويلة. على سبيل المثال » بالنسبة لتسلسل من 1000 محرف › 
يمكن أن يكون للمحرف الأول تأثير كبير على المحرف في الموقع النهائي. هذا ليس ممكنًا من 
الناحية الحسابية Ge‏ لأنها تتطلب الكثير من الوقت والذاكرة. 

في ما يلي . سنصف الانتشار الخلفي بمرور الوقت رياضيًا. لفهم كيفية عمل هذا النهج › 
يمكنك الاطلاع على نظرة عامة حول كيفية تدفق المعلومات في الشكل أدناه: 


E D a a ® A > 
١ EJ w ey 


softmax == 


unfold 


| softmax 


by S 
— 


E Wyn 
by 
Wan 


Win‏ و 
من أجل التمكن من استخدام الانتشار الخلفي بمرور الوقت في عملية تدريب الشبكة العصبية 
المتكررة » يجب أولاً حساب دالة الخطأ: 
T‏ 
L, y) = 3 Lr NeYe)‏ 
t=1‏ 
T‏ 
y:log It‏ ) - = 
t‏ 
T‏ 
-X xdog [softmax(o;)]‏ = 
t=1‏ 


نظرًا OY‏ وزن Wyn‏ مقسم في جميع المتتاليات الزمنية. ومن ثم . يمكننا اشتقاقها في أي مرحلة 
وتجميعها معًا: 
aL N^ OL,‏ 


Wyn — 7 OWyn 


_ Lr 0, 80, 
- 0$, 00; AWyn 
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1 
= ١/6 - وبر‎ © 
t 


Pe‏ و© الضرب الخارجي هما متجهان. 
وبالمثل ‘ يمكننا الحصول على تدرج التحيز iby‏ 
ðL aL, 95, 0,‏ 


ðb, | = 0j; ðo, ðby 


T 
= < 0 -») 
t 


بالإضافة إلى ذلك » دعنا نستخدم Leyg‏ للإشارة إلى ناتج الخطوة الزمنية 1 + : 


Lesa = —Yt+1l09t+1 


Qor 


= ht هذه المعادلة‎ a 


t + 1 فيما يتعلق بالوقت‎ Wan سنراجع تفاصيل الانحدار الاشتقاقي‎ > oM 


Ltt z OLts1 OVt41 Ohe+1 
OWnn — OVt41 Oht+1 Own 


hi = tanh(w7,.x, + Win. hi4 + bn) 


يعتمد أيضا. لذلك . في الخطوة الزمنية t 1 t‏ . يمكن الحصول على المشتق الجزئي فيما 
يتعلق ب Wan‏ على النحو التالي: 
a OLe+1 OVe+1 Ofer 0h,‏ 1جع 01 
OWnn — 9Ve+1 Ohta Oht OWnn‏ 
لذلك . في الخطوة الزمنية 1 + ا ٠‏ يمكننا حساب الانحدار الاشتقاقي واستخدام 1 + ا إلى 
t‏ من خلال إعادة الإرسال بمرور الوقت للحصول على الانحدار الكلي فيما يتعلق ب Wan‏ 
t+1 5‏ 
OLe+1 OVe41 Wer. Ahk‏ - 1جع 01 
OWnh mr O¥t41 Ohta Oh, OWnn‏ 


لاحظ أن E‏ هي نفسها قانون السلسلة. فمثلا: 


ðh, _ و88‎ Oh, 


ðh, ðh, Oh, 


"— 


لاحظ Cal‏ أنه نظرًا WY‏ نعتبر مشتقة الدالة كمتجه c‏ فهي نتيجة مصفوفة (مصفوفة Jacobin”‏ 
تكون فيها جميع العناصر مشتقات جزئية. يمكننا إعادة كتابة التدرج أعلاه: 

t+1 i t 
OLe+1 _ OLe+1 OVt+1 [ [5 Oh, 
OWnn £e 0c Oe +1 = Oh; | OWnh 


t 
||] = Oe +1 = dhe, Oh, hk+ 
Oh; Oh, Oh, Ohi Oh, 


j-k 


تتم إضافة التدرجات المتعلقة ب Wap‏ معًا في جميع خطوات الانتشار الخلفي . وأخيرًا يمكننا 
الحصول على الانحدارات الاشتقاقية التالية فيما يتعلق ب [Whh‏ 
T t4+1‏ 


OL i 21» O¥t+1 Ohe+1 0h, 
Wnh neri der1 Oey, Ohk OWan 


الآن دعنا نستخرج التدرج بالنسبة إلى Wyn‏ وبالمثل » ضع في اعتبارك الخطوة الزمنية 1 t+‏ 


Ltt " OLt 4 09144 Ohta 
OWyy — OVt41 Oht+1 OWxn 


نظرًا 03 كل من he‏ و Xega‏ يساهمان في e hegi‏ فنحن بحاجة إلى ع7 للانتشار الخلفي. إذا 
أخذنا فى الاعتبار هذه الشراكة « فسنحصل عليها: 


Leta = OL;,4, 09:44 Ohta  OLts1 09441. Ohe 
OWxn = O9g44 Oht,4 Owyn 09t44 Oh; Owy, 


لذلك . من خلال جمع جميع المساهمات من 1+ t Jt‏ عبر الانتشار الخلفي e‏ يمكننا 
الحصول على الانحدار الاشتقاقى فى الوقت 1 t+‏ 


d‏ بالنظر إلى دالة التعيين —n‏ التالي للمتجه ‏ إلى متجه الإخراج —m‏ التاليء R‏ د f : RI‏ تسمى مصفوفة جميع المشتقات 
الجزئية من الدرجة الأولى لهذه الدالة بمصفوفة :Q) Jacobin‏ 


Un n Bi 
Ox, OX 
كال‎ o 8 
Ofm Of. 
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t*1 n 
OL, _ OLe+1 ج97‎ Ohrr1 Phy 


ÓWyn £4 0955 heyy Ohy Owys 


deles الها‎ iw. با إلى‎ all joel يمك‎ + HS اا‎ 


T t*1 E 
OL _ y> t1 Oty, Oh, 
OWxh z £055 heyy Oh, Owys 
هي نفسها قانون السلسلة.‎ rm أن‎ Cad لا تنس‎ 
تللاشى وانفجار الانحدار الاشتقاقى فى الشبكة العصبية المتكررة‎ a كما ذكرنا ¢ هناك مشاكل‎ 
العادية. بشكل عام . هناك عاملان يؤثران على مقدار التدرجات: الأوزان ودوال التنشيط . أو‎ 
بشكل أكثر دقة . المشتقات التي يمر منها الانحدار الاشتقاقي. في الشبكة العصبية المتكررة‎ 
العادية « ينتج تلاشي وانفجار الانحدار الاشتقاقي عن الاتصالات المتكررة. بتعبير أدق 6 هاتان‎ 
Oh 


المشكلتان ترجعان إلى المشتق ue e‏ الذي يحدث في المعادلة Wx‏ ويجب حسابه: 


Tte _ hess _ Sherr Ohe hs 
dh; Oh, Oh; Oh," Oh, 
ويمثل ضرب المصغوفة على المتتالية.‎ 
الشبكة العصبية المتكررة العادية تحتاج إلى الحصول على الانحدار الاشتقاقي‎ oY نظرًا‎ 
مقدار التدرج‎ OG e للانتشار الخلفي بتسلسل طويل (بقيم صغيرة مضروبة في المصفوفة)‎ 
ينخفض طبقة تلو الأخرى ويختفي في النهاية بعد بضع خطوات. لذلك » لن تساعد المواقف‎ 
البعيدة عن المرحلة الزمنية الحالية في حساب معاملات التدرج . وهي نفس معاملات التعلم في‎ 
الشبكة العصبية المتكررة.‎ 
تحدث‎ . Glu لا يقتصر تلاشى الانحدار على الشبكة العصبية المتكررة العادية. كما ذكرنا‎ 
امامية التغذية. النقطة المهمة هى أن الشبكة العصبية المتكررة أكثر‎ i andi أيضًا فى الشكات‎ 
عميقة جدا. تظهر هاتان المشكلتان فى النهاية أنه إذا قلاشى الاتحدار‎ GV عرضة لهذه المشاكل‎ 
paded تا حت على‎ Gl pad الميققية السا‎ os يعي أن‎ Hab c Gti 
لا يتم تعلم التبغية طويلة المذئ. لحسن الحظ » هناك عدة طرق لإصلاح‎ ERE 
مشكلة تلاشى الاشتقاق. يمكن أن يؤدي التهيئة المناسبة لمصفوفات الوزن إلى تقليل تأثير تلاشى‎ 
حل آخر مفضل أكثر من الحلين السابقين هو استخدام‎ acf الانحدار. يمكن أن يساعد التنظيم‎ 
هو ثابت من‎ ReLU مشتق‎ sigmoid او‎ tanh بدلا من دوال التنشيط‎ ReLU وظيفة التنشيط‎ 
شيوعًا‎ ASV أو 1 . لذلك على الأرجح لا يحتوي على مشكلة تلاشي الانحدار. الحل‎ 0 
والمستخدم على نطاق واسع اليوم هو استخدام شبكات الذاكرة قصيرة المدى طويلة المدى.‎ 


j-k 
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الذاكرة قصيرة المدى المستمرة لفترة أطول' 


تم بناء شبكات الذاكرة قصيرة المدى المستمرة لفترة أطول (LSTMs)‏ للتغلب على مشكلة تلاشي 
التدرج أو انفجاره. تحتوي LSTM‏ على خلية حالة تتحكم » بالإضافة إلى الحالة المخفيةء في 
تدفق المعلومات بين المراحل الزمنية. يحتوي Ca) LSTM‏ على بوابات تستخدم لتغيير الحالة 
وتشكيل مخرجات. يتم توفير نظرة عامة على خلية LSTM‏ في الشكل 4-7. 

تستخدم بوابة النسيان لنسيان المعلومات غير ذات الصلة بحالة الخلية. بوابة النسيان 
للمصفوفة لها وزنها. مدخلات بوابة الإدخال هي الحالة المخفية السابقة ۸_1 والمدخلات 
الحالية هي . تستخدم دالة sigmoid‏ لتوليد ناتج بين صفر وواحد لكل pate‏ في خلية الحالة. 
يتم تنفيذ الضرب الأولي بين خرج بوابة النسيان وخلية الحالة. تعني قيمة واحد عند إخراج بوابة 
النسيان الاحتفاظ الكامل بمعلومات العنصر فى خلية الحالة » بينما يعنى الصفر النسيان الكامل 
للمعلومات الموجودة في عنصر خلية ily TE‏ النسيان كالتالي: 

f: = o(W .م‎ [hi1 xt] + by) 


Ces 6 


hia 


Xt 


= sigmoid function &- pointwise multiplication 


gp- tanh function p = pointwise addition 


شكل 4-7. هيكل الخلية في LSTM‏ 

العملية الثانية فى خلية LS TM‏ هى oY dlp‏ تكتشف البوابة معلومات جديدة من مرحلة 
الوقت الحالية والحالة المخفية السابقة التي يجب تضمينها في حالة الخلية. يتم ذلك في جزأين: 
تحديد القيم المراد تحديثها ثم إنشاء القيم المراد تحديثها. يتم استخدام المتجه ip‏ أولاً لتحديد 
قيم المرشحين الجدد المحتملين لتضمينها في حالة الخلية. يحتوي المتجه المرشح Ca Cy‏ 
على مصفوفة وزن خاصة به ويستخدم الحالة والمدخلات المخفية السابقة لتشكيل متجه بأبعاد 
مماثلة لخلية الحالة. لإنشاء هذا المتجه المرشح e‏ يتم استخدام دالة tanh‏ كدالة غير خطية. يتم 
بعد ذلك إجراء عملية مضاعفة للعنصر بين متجه الإدخال ip‏ والمرشحين C,‏ لتحديد المعلومات 


1 Long Short-Term Memory Networks 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الجديدة ol poll‏ تضمينها فى خلية الحالة. أخيرًا » يضاف نتيجة الضرب إلى خلية ALS‏ تظهر 
هذه العملية فى المعادلات التالية: 
i, = o(W;. [h1 xi] + bi)‏ 

& = tanh(W.. [h,_1,x,] + bj) 
تحديث خلية الحالة في كل خطوة زمنية. يتم تحديث خلية‎ LAS النسيان والادخال‎ bly تحدد‎ 
الحالة فى خطوة زمنية من خلال المعادلة التالية:‎ 

Cı = f, * يمه‎ ti, * G 

(e‏ يجب تحديد ما هو موجود في الإخراج. الناتج النهائي لخلية LSTM‏ هو الحالة المخفية 
«Ya -h‏ تستخدم sigmoid‏ لحساب المتجه بقيم بين صفر وواحد لتحديد قيم خلية الحالة في 
الخطوة الزمنية. ثم نعطي قيمة خلية الحالة لطبقة tanh‏ لمضاعفة قيمتها أخيرًا بإخراج طبقة 
14 السابقة » بحيث تتم مشاركة الأجزاء المرغوبة عند الإخراج. تظهر المعادلات التالية 
هذا الاتجاه: 


0, = 007 [hii xel + bo) 


h, = o, * tanh (c,) 


الطريقة التي يقلل بها LSTM‏ من مشكلة تلاشي التدرج أو الانفجار هي في المعادلة: 

Cr = f, * Cpa Fir * Ce 
بنية داخلية معقدة تتضمن عدة طبقات من الخلايا العصبية ويمكن اعتبارها‎ LSTMs تمتلك‎ 
شبكة واحدة. ومع ذلك » يمكن أيضًا استخدامها كوحدات بناء لشبكة عصبية متكررة. يتم تحقيق‎ 
حققت‎ JÀ).LSTM ذلك عن طريق استبدال الطبقة المخفية فى شبكة عصبية متكررة بوحدة‎ 
الشبكة القياسية المستخدمة‎ OW كبيرًا في معالجة اللغة. على سبيل المثال . هم‎ ELS LSTMs 
لاكتشاف الكلام على الهواتف المحمولة.‎ 


الشبكة العصبية الالتفافية 


ضع في اعتبارك شبكة تغذية عصبية متصلة بالكامل تأخذ صورة RGB‏ بسيطة [256 x 256 x‏ 
3[ كمدخل لها. وبناءَ على ذلك . فإن كل خلية imas‏ بمفردها لها 555 196608 = ]256 x‏ 
x 256‏ 3[ وزن وهذا الوزن لخلية واحدة فقط !! من ناحية أخرى . تتطلب البنى العميقة أعدادًا 
كبيرة من الخلايا العصبية والطبقات المخفية لتمثيل هياكل معقدة بدرجة كافية في بيانات 
الإدخال. هذا يعني أن طبيعة الاتصال الكامل لهذه الشبكات تستهلك قدرًا كبيرًا من الذاكرة , 
خاصة للصور أو مقاطع الفيديو الكبيرة. بالإضافة إلى ذلك » فإن Bae‏ كبيرًا من المعاملات يزيد 
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من ميل الشبكة إلى الضبط الزائد. لذلك . لمعالجة هذه المشكلات c‏ تم تقديم الشبكات العصبية 
الالتفافية (CNN!)‏ كتطوير شائع جدا للشبكات العصبية القياسية. الشبكات العصبية الالتفافية 
هي فئة من شبكات العصبية امامية التغذية التي تستخدم الطبقات الالتفافية لتحليل المدخلات 
باستخدام طبولوجيا الشبكة » مثل الصور ومقاطع الفيديو. يعتمد اسم هذه الشبكات على الدالة 
الرياضية المسماة الالتفاف التي يستخدمونها في بنيتهم. باختصار . الشبكات الالتفافية هي 
شبكات عصبية تستخدم الالتفاف بدلاً من مضاعفة المصفوفة في طبقة واحدة على الأقل من 
طبقاتها. 


هيكل E Jl‏ بك al a3JUl E‏ به 
فى بنية الشبكة الالتفافية » هناك جزءان رئيسيان: 


e.‏ استخراج الميزة: فى هذا القسم . يحدد الميزات المختلفة للصورة باستخدام الالتفاف 
e‏ التصنيف: فى هذا الجزء. باستخدام طبقة متصلة بالكامل > يتم استخدام عملية 
استخراج الميزات ويتنباً Be‏ الصورة Fly‏ على الميزات المستخرجة في الخطوات 
السابقة. يمكن رؤية هيكلها العام في الشكل 5-7. 
طبقة الالتفاف 
بالنسبة للصورة ثنائية الأبعاد 1 » يتم تعريف الالتفاف المنفصل على النحو التالي: 
mj = 016 (m,n)‏ 104 رج رج ,10« ( = SJ)‏ 
m n‏ 


حيث K (m, n)‏ هي نواة ثنائية الأبعاد والمخرج SCE J)‏ يسمى خريطة الميزات. بشكل حدسي. 
هذه العملية "تنزلق" الفلتر 

Quee (Y Y) Y af) (Bas) -Y Y او الكيرنل (النواة) على‎ 

طول الصورة I‏ وتحسب 
مجموع الاوزان للكيرنل 
في كل موضع wisi‏ 
الصورة. يظهر مثال على ail‏ 


مثل هذا الالتفاف sonder vU‏ 22 
الأبعاد المنفصل فى الشكل خريطة الميزات لنواة 1 
yey voy 1‏ 


1 Convolutional neural network 
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المقابل. في الشبكة العصبية الالتفافية c‏ تصف النواة K‏ الأوزان القابلة للتعلم لطبقة الالتفاف « 
ويمكن أن تحتوي كل طبقة التفاف على العدد المطلوب من النوى ‏ وكل منها يؤدي إلى خريطة 
لميزات مخرجاتها. 


چ 

FAT a a 
i 3 E. 
323 ۴ i 

E 


JA ea لابه‎ 
دستهبندى‎ 


الث 


uos نقشه‎ 


استخراج ويزكى 
5-7. نظرة عامة على هيكل الشبكة الالتفافية 


تحتوي كل طبقة من طبقات الالتفاف على مجموعة محددة من المعاملات الفائقة .كل منها 
يحدد ote‏ الاتصالات وحجم الإخراج لخرائط الميزات: 
. حجم الفلتر: يصف حجم الكيرنل × (يسمى أحيانًا حجم الفلتر) حقل الاستلام الذي 
ينطبق على جميع مواقع الإدخال. تسمح زيادة هذه المعامل لطبقة الالتفاف بتلقي 
المزيد من المعلومات المكانية » مع زيادة عدد أوزان الشبكة في نفس الوقت. 
ade e‏ الفلاتر: يتوافق عدد النوى بشكل pile‏ مع عدد المعاملات القابلة للتعلم وعمق 
D‏ لحجم إخراج طبقة الالتفاف. مثلما ينتج كل نواة خريطة ميزات مخرجات منفصلة 
فإن النوى D‏ تنتج خريطة ميزات مخرجات بعمق D‏ 
© الخطوة: كما أوضحنا EL‏ يمكن فهم الالتفاف على أنه ركيزة عن طريق "انزلاق" 
فلتر على حجم إدخال. ومع ذلك » لا يجب أن يحدث "الانزلاق" على مسافة بكسل 
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واحد فى كل مرة c‏ وهو ما تصفه الخطوة. تحدد الخطوة S‏ عدد وحدات البكسل التى 
تنقلها النواة بين كل Cle‏ لخاصية الإخراج. تنتج الخطوات الأكبر حجمًا خرائط 
ميزات مخرجات أصغر لأنه يتم إجراء عدد أقل من العمليات الحسابية. يظهر هذا 


المفهوم في الشكل أدناه: 


الكيرنل 23! , الخطوة 5-3 الكيرنل 2-3 , الخطوة 5-2 الكيرنل 3=) , الخطوة 5<1 
خريطة المعالم : Y‏ خريطة المعالم : ٤‏ خريطة المعالم V:‏ 


الطبقات الصفرية: نظرًا لتشغيل عملية الالتفاف » تستخدم الطبقات الصفرية للتحكم 
في الأبعاد بعد تطبيق فلاتر أكبر من 1 × 1 ولمنع فقدان المعلومات في الهوامش. 
بمعنى آخر WE.‏ ما يتم استخدام الطبقة الصفرية للحفاظ على الأبعاد المكانية 
لطبقات الإدخال والإخراج كما هي. عن طريق إضافة مدخلات صفرية حول المحيط 
يمكن تجنب انكماش الأبعاد المكانية عند الالتفاف. تعد قيمة الأصفار المضافة على 
كل جانب لكل بعد مكاني معامل فائق إضافي .P‏ يظهر مثال على الطبقات الصفرية 
في الشكل أدناه: l‏ ۰ 
الكرنل K-3‏ , الخطوة 5-3 الحشو 12-1 


wmm 


التمدد" (التوسع): التمدد d‏ الذي تم إدخاله مؤخرًا هو معامل BE‏ آخر يسمح لطبقة 
الالتفاف أن يكون لها مجال استقبال أكثر كفاءة من الإدخال » مع الحفاظ على حجم 
النواة ثابتا. يتم الحصول على ذلك عن طريق إدخال المسافة d‏ بين كل خلية من النواة. 
يستخدم الالتفاف القياسي ببساطة الدوران 0. ومن ثم فإن لها نواة مستمرة. من خلال 
زيادة المساحة » يمكن لطبقة الالتفاف أن تشغل مساحة أكبر من الإدخال مع الحفاظ 


1 Dilation 
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على ثبات استهلاك الذاكرة. يظهر مفهوم الالتفافات الشعاعية" e‏ التي تسمى Ghat‏ 
الالتفافات التصلبية . فى الشكل 7-6 بالتفافات مختلفة. 


oP والطبقة الصفرية‎ d التمدد‎ c S الخطوة‎ e K حجم النواة او الفلتر‎ . W لحجم الإدخال‎ Gis 
يتم حساب حجم الإخراج الناتج على النحو التالي:‎ 
ER induce Um T" 

استخدام التفاف له ثلاث مزايا مهمة. Bole Kof‏ ما يكون للشبكات العصبية الالتفافية 
اتصالات انفراديةة. تستخدم شبكات العصبية امامية التغذية مصفوفة من المعاملات التي تصف 
العلاقة بين وحدات الإدخال والإخراج. هذا يعني أن كل وحدة إخراج متصلة JS‏ وحدة إدخال. 
ومع ذلك. فإن الشبكات العصبية الالتفافية لها اتصال انفرادي يتم الحصول عليه عن طريق 
تقليص النواة من المدخلات. على سبيل المثال» يمكن أن تحتوي الصورة على ملايين أو YT‏ 
وحدات البكسل» ولكن أثناء معالجتها باستخدام النواةء يمكننا تحديد المعلومات المفيدة التي 
تتكون من عشرات أو متات من وحدات البكسل. هذا يعني أنه يتعين علينا تخزين عدد أقل من 
المعاملات التي لا تقلل من الحاجة إلى الذاكرة فحسب» بل تعمل asl‏ على تحسين الأداء 
الإحصائي للنموذج. GE‏ تستخدم الشبكات العصبية الالتفافية مشاركة المعاملاتة. أي أنهم 
يعيدون استخدام نفس المعاملات للعديد من الدوال. تجلب المعاملات المشتركة أيضًا الميزة 
الرئيسية الأخيرة. وهي التقارب. التقارب“ يعني Gal‏ حالة تهجير المدخلات. يتم إزاحة 
المخرجات بنفس الطريقة. هذه الميزة ضرورية لمعالجة البيانات ثنائية الأبعادء OY‏ إذا تم نقل 
صورة أو جزء منها إلى موقع آخرفي الصورة» فسيكون لها نفس العرض. 
طبقة الدمج 


من أجل الحفاظ على قيمة المعاملات منخفضة وزيادة مجال القبول الفعال للمخرجات G3 y‏ 
للإدخال « يمكن أن يكون استخدام شكل خاص من أخذ العينات المكانية » يسمى الدمج او 
التجميع c‏ بعد عدة طبقات من الالتفاف في الشبكة مفيدا. يمكن فهم الدمج c‏ على غرار الالتفاف. 
بشكل حدسي على أنه آلية كيرنل زلقة . ذات معايير مماثلة » مثل درجة الميل وحجم النواة. 
الاختلاف الرئيسي هو أنه يحسب تكامل دالة ثابتة في مدخلاته . والتي عادة ما تكون الحد 
الأقصى للعملية. يتضمن الشكل الأكثر شيوعًا للتكامل نواة [2 x‏ 2[ بالخطوة 2. عندما يتم 


! atrous convolutions 
2 Sparse interactions 
3 Parameter sharing 


. Equivariance 


الفصل السابع: التعلم العميق 317 


تطبيق هذه النواة على حجم الإدخال باستخدام دالة الحد الأقصى . تتم معالجة التصحيحات 
غير المتداخلة [2. 2] لحجم الإدخال بشكل فعال » مع الاحتفاظ فقط Sh‏ قيمة في خريطة 
سمة الإخراج وتجاهل 75/ من بيانات الإدخال. يمكن إجراء الانتشار الخلفي لتحقيق أقصى 
قدر من الدمج ببساطة عن طريق توجيه الانحدار الاشتقاقي فقط من خلال الإدخال بأعلى قيمة 
في التمريرة الخلفية. 


هس>ت: 3X3‏ التمدد: 1 هسه: 3X3‏ التمدد: 0 


هسه: 3×3. التمدد: 2 


شكل 6-7. فراخش روى ورودى دو بعدى با اندازه‌های مختلف. 

نظرًا oY‏ هذه الدالة ثابتة » فإنها لا تتطلب أي معاملات قابلة للتعليم وبالتالي لا تزيد من 
استهلاك الذاكرة وقدرة نموذج 45 CNN‏ مقارنة بالتفافات الخطوة". ومع ذلك c‏ يبدو أن هياكل 
CNN‏ الحديثة تتجنب استخدام الدمج للاختزالة o‏ وبدلاً من ذلك تقترح Gih‏ استخدام 
الالتفافات في الخطوات لتقليل الأبعاد المكانية. يبدو أن هذا مهم بشكل خاص عند تدريب 
النماذج التوليدية مثل شبكات الخصومة التوليديةة. 
الطبقات غير الخطية 
كما ذكرنا Hole‏ « يمكننا استخدام الشبكات العصبية العميقة لاكتشاف أنواع مختلفة من الصور. 
ومع ذلك . إذا استخدمنا الطبقات الخطية فقط . مثل الالتفاف . فيمكننا العثور على تحويل 


1 strided convolutions 
2 downsampling 


3 Generative Adversarial Networks (GANS) 
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خطي من طبقة واحدة لاستبدال الشبكة العصبية العميقة. بمعنى آخر » لا يهم أن تتكون الشبكة 
من عدة عمليات خطية , فالنظام بأكمله ليس أقوى من الانحدار الخطي البسيط. على هذا النحو 
لا توجد طريقة للاستفادة من الشبكات العصبية العميقة. لذلك . نظرًا OY‏ الالتواء عملية خطية 
oly‏ الصور غير خطية فغالبًا ما يتم وضع الطبقات غير الخطية مباشرة بعد طبقة الالتفاف لإنشاء 
Ble‏ غير خطية بين المدخلات والمخرجات. 

في الشبكات العصبية e‏ يتم إدخال اللاخطية باستخدام مفهوم دالة التنشيط. هناك عدة أنواع 
من الدوال غير الخطية » وأشهرها: 


. سيكمويد: يتم تعريف دالة التنشيط سيكمويد على النحو التالي: 
كد = a(x)‏ الذي 
يعيّن الإدخال بالقيمة 
الحقيقية ل x‏ فى النطاق بين 
0 5 1 تظهر دالة التتشيط 
سيكمويد فى الشكل المقابل. 
فى الشبكات اللي اير - 
المبكرة. كانت سيكمويد GLE‏ شائعًا. ومع ذلك » فإن دالة التنشيط سيكمويد لها 
عيوب كبيرة. العيب الرئيسي لسيكمويد هو أنه يشبع وبالتالي يوفر فقط تدرجات قريبة 
جد من الصفر في هذه المناطق € مما يمنع بشكل فعال التدرج من الانتقال عبر هذه 
الخلايا العصبية إلى جميع المدخلات بواسطة خوارزمية الانتشار الخلفي. بالإضافة 
إلى AUS‏ الإخراج لدالة تنشيط سيكمويد ليست صفرية المركز. والتي يمكن أن تؤدي 
إلى ديناميكيات غير مرغوب فيها أثناء الانحدار الاشتقاقي. لذلك . لا يُسمح دائمًا 
باستخدام دالة التنشيط سيكمويد للخلايا العصبية المخفية. ومع ذلك c‏ بالنسبة للخلايا 
العصبية الناتجة c‏ يمكن أن يكون النطاق بين 0 و1 مفيدا. على سبيل المثال » لتفسير 
التنبؤات على أنها احتمالات. 
e‏ الدالة الزائدية (tanh)‏ ترتبط دالة تنشيط تانتش ارتباطًا Giy‏ بدالة التنشيط سيكمويد 
وشكلها الرياضي هو كما يلي: 


= 20(2x) —1. 


[ D 2 


x -x 


sinh(x) e 
cosh(x) e* +e-* 


—e 
tanh(x) = 


1 zero-centered 


st gh al 


كما يمكن رؤيته في المعادلة أعلاه tanh ob «o‏ هو ببساطة نسخة مصغرة من 
.sigmoid‏ ومع ذلك . فهو 
صفري المركز. لذلك . فإنه لا 
يظهر بعض المشاكل التي يعاني 
منها سيكمويد. يظهر المنشط 
تانتش في الشكل المقابل. 

x(ReLU) وحدة المعدل الخطى‎ e 
ReLU bet يتم تعريف دالة‎ 
التالي:‎ pull على‎ 


tanh(z) 


ReLU(x) = max (0, x) 

ally‏ يمكن رؤيتها في الشكل 

المقابل. بالمقارنة مع sigmoid‏ و 

ReLU ol « tanh‏ أكثر كفاءة ويسرع 
التقارب. 


| خلاصة الفصل السابع 


n‏ يصف التعلم العميق الخوارزميات التي تحلل البيانات بهيكل منطقي « على غرار الطريقة 
a‏ يدها Las‏ 

c‏ يعتمد جوهر التعلم العميق على طريقة تكرارية لتدريب الآلات لتقليد الذكاء البشري. 

8 في العام Vs endi‏ تتا إلى tray‏ سردا لكل کی 

" الخلايا العصبية الاصطناعية هى اللبنات الرئيسية للشبكات العصبية الاصطناعية. 

د AKA awed‏ الها ald‏ الغو عد خلايا عصبية لتشكيل fly pty‏ اتجافي درن 


T 


دائرة. 

* الغرض من تحسين الشبكات العصبية امامية التغذية هو العثور GWE‏ على الأوزان 
والتحيزات التي تقترب من إخراج الشبكة المستهدفة لإ مع الإدخال X‏ 

o‏ ربما تكون خوارزمية الانتشار الخلفي هي اللبنة الأساسية في الشبكة العصبية. 

" يعد الانتشار الخلفى فى الأساس TEN‏ لحساب colas t‏ بشكل فعال فى الشبكات 
العضيية ioa‏ اعات ۰ 

* إحدى العوائق الرئيسية لتحسين الشبكات العصبية من خلال الانتشار الخلفى وتقليل 
التدرجات هي مشكلة تلاشي الانحدار. l‏ 

الغرض من الانحدار الاشتقاقي العشوائي هو تسريع عملية التعلم مع تغيير طفيف في إجراء 
الانحدار الاشتقاقي القياسي. 
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m‏ الهدف من مَحسيّن معدل التعلم التكيفي هو حل مشكلة إيجاد معدل التعلم الصحيح. 

في الشبكات العصبية » يجب اختيار القيم الأولية للأوزان بعناية فائقة. 

E‏ تُستخدم مجموعات التحقق من الصحة في الشبكات العصبية بشكل شائع لضبط 
المعاملات الفائقة للنموذج مثل بنية الشبكة أو معدلات التعلم. 

m‏ يشير "الحذف العشوائي" في الشبكات العصبية إلى عملية تجاهل عقد معينة عشوائية في 
طبقة أثناء تدريب الشبكة. 

m‏ الشبكات العصبية المتكررة هي نوع من الشبكات العصبية الاصطناعية المصممة لاكتشاف 
الأنماط فى تسلسل البيانات. 

el =‏ شنيكات ذاكرة طويلة المدى للتغلب على مشكلة تلاشي التدرجات أو انفجارها. 

" الشبكات العصبية الالتفافية هي فئة من شبكات العصبية امامية التغذية التي تستخدم 
الطبقات الالتفافية لتحليل المدخلات باستخدام طبولوجيا الشبكة . مثل الصور ومقاطع 
الفيديو. 


puso]‏ إضافية لمزيد من القراءة 
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ما هو التعلم غير الاشرافى وما فوائده؟ 
" التعرف على التجميع وأنواع مختلفة من الخوارزميات؟ 
" الفرق بين اختيار الميزة واستخراج الميزة. 

" تقليل الأبعاد الخطية peg‏ الخطية. 

* التعرف على .autoencoder‏ 

" الفرق بين نعوذج الإنتاج والفاصل. 
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التعلم غير الخاضع للإشراف وضعف التعلم الخاضع 


الإشراف 


التعلم الخاضع للإشراف فعال للغاية في تحسين أداء المهام باستخدام مجموعات البيانات ذات 
العلامات المتعددة. على سبيل المثال » ضع في اعتبارك مجموعة بيانات كبيرة جدا من صور 
الكائنات التي تم وضع علامة عليها كل صورة. إذا كانت مجموعة البيانات كبيرة بما يكفي e‏ إذا 
قمنا بتدريبها cm‏ بما يكفي باستخدام خوارزميات التعلم JW‏ الصحيحة (الشبكات العصبية 
الالتفافية) وباستخدام جهاز كمبيوتر قوي . يمكننا بناء نموذج تصنيف للصور قائم على التعلم 
يخضع للإشراف جيد. نظرًا لأنه يتم تدريب الخوارزمية الخاضعة للاشراف » يمكنها قياس أدائها 
(عبر دالة التكلفة) من خلال مقارنة علامة الصورة المتوقعة مع علامة الصورة الفعلية الموجودة 
لدينا في مجموعة البيانات. تحاول الخوارزمية صراحة تقليل دالة التكلفة هذه ؛ بحيث يكون 
الخطأ في الصور التي لم يتم رؤيتها من قبل (مجموعة الاختبار) أقل ما يمكن. هذا هو السبب 
في أن العلامات قوية جد » فهي تساعد في توجيه الخوارزمية من خلال توفير مقياس للخطأ. 
تستخدم الخوارزمية مقياس الخطأ لتحسين أدائها بمرور الوقت. بدون هذه العلامات . لا تعرف 
الخوارزمية مدى نجاحها في تصنيف الصور بشكل صحيح. ومع ذلك » في بعض الأحيان تكون 
WS‏ وضع العلامات يدويًا على مجموعة بيانات عالية جدا. 

بالإضافة إلى ذلك » على الرغم من قوة نماذج التعلم الخاضع للإشراف » إلا أنها محدودة في 
تعميم المعرفة خارج نطاق المعرفة التي تم تدريبهم عليها. نظرًا OY‏ معظم بيانات العالم غير 
مسماة e‏ فإن قدرة الذكاء الاصطناعي على توسيع وظائفه لتشمل أمثلة غير مرئية من قبل محدودة 
باستخدام التعلم الخاضع للإشراف. بمعنى آخر » يعد التعلم الخاضع للإشراف أمرًا Bal‏ لحل 
مشاكل الذكاء الاصطناعي المحدودة"(الضعيفة) . ولكنه ليس رائعًا لحل مشكلات الذكاء 
الاصطناعى القوية. 

اة آي اقل pb‏ التعافتم اوران يقني Ci‏ الروت ال OS‏ ف LGW‏ 
غير معروفة أو تتغير باستمرار أو ليس لدينا مجموعات بيانات ذات علامات كافية لها. يعمل 
التعلم غير الخاضع للإشراف » بدلاً من الاسترشاد بالعلامات c‏ من خلال تعلم البنية الأساسية 
للبيانات التي يتم التدريب عليها. يقوم التعلم غير الإشرافي بذلك من خلال محاولة تمثيل 
البيانات التي يتم التدريب عليها بمجموعة من المعاملات. من خلال القيام بهذا التعلم التمثيلي“ 
يمكن للتعلم غير الخاضع للإشراف تحديد أنماط مميزة في مجموعة البيانات. في مثال مجموعة 
بيانات الصورة (هذه المرة غير مسماة) e‏ قد يكون التعلم غير الخاضع للإشراف قادرًا على تحديد 


1 Narrow AI 


2 representation learning 
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الصور وتجميعها tly‏ على مدى تشابهها مع بعضها البعض وكيف تختلف عن الآخرين. على 
سبيل المثال » يتم تجميع كل الصور التي تشبه الكراسي Ua‏ » ويتم تجميع كل الصور التي تشبه 
القطط معًا. بالطبع c‏ لا يستطيع التعلم غير الإشرافي نفسه تسمية هذه المجموعات ب "الكراسي" 
أو "القطط". ومع ذلك » الآن بعد أن تم تجميع الصور المتشابهة Ga‏ . أصبح لدى البشر مهمة 
أبسط بكثير تتمثل في وضع العلامات. بدلاً من وضع علامات على ملايين الصور يدويًا » يمكن 
للبشر تحديد جميع المجموعات المنفصلة يدويًا وتطبيق هذه العلامات على جميع أعضاء كل 
مجموعه. 

وبالتالي » فإن التعلم غير الإشرافي يجعل المشكلات التي كانت غير قابلة للحل في السابق 
أكثر LLU‏ للحل وأكثر مرونة في العثور على الأنماط المخفية c‏ سواء في البيانات السابقة المتاحة 
للتدريب أو في البيانات المستقبلية. حتى لو كان التعلم غير الإشرافي أقل مهارة في حل مشكلات 
معينة (مشاكل محدودة للذكاء الاصطناعي) من التعلم الخاضع GLU‏ فمن الأفضل التعامل 
مع المشكلات المفتوحة أكثر من الذكاء الاصطناعي القوي وتعميم هذه المعرفة. والأهم من 
ذلك» أن التعلم غي رالخاض ع للإشراف يمك نأن يحل العديد من المشكلات الشائعة التي بواجهها 
علماء البيانات عند تطوير حلول التعلم الآلي. 
الذكاء الاصطناعى الضعيف والقوى 
اليوم ء الذكاء الاصطناعي على شفاه الجميع . ولا يمر يوم لم نسمع فيه عن الذكاء الاصطناعي. 
ومع ذلك . فإن الحديث عن الذكاء الاصطناعي be OE‏ يؤدي إلى سوء الفهم. هذا لأنه لا يوجد 
تعريف واضح للذكاء الاصطناعي. قد يجعل المساعدون الشخصيون مثل Siri‏ أو Amazon‏ 
Alexa‏ أو Google Home‏ بعض المستخدمين يعتقدون أنهم يتحدثون معهم أو يفهمونهم. 
بشكل عام » يتكون الذكاء الاصطناعي من خوارزميات متقدمة تتبع دالة رياضية يمكنها إجراء 
عمليات معقدة شبيهة بالإنسان. تشمل الأمثلة الفهم البصري والتعرف على الكلام واتخاذ القرار 
والترجمة بين اللغات. بشكل عام . هناك قضيتان فكريتان في الذكاء الاصطناعي: الذكاء 
الاصطناعي الضعيف والذكاء الاصطناعي القوي. يعتبر المساعدون الشخصيون المزعومون 
اللأكثر اهتمامًا اليوم « Siri‏ أو Amazon Alexa‏ أو Google Home‏ « برامج ذكاء اصطناعي 
ضعيفة لأنهم يعملون في مجموعة محدودة من الوظائف المحددة osa‏ حتى برامج الشطرنج 
المتقدمة تعتبر ذكاءً اصطناعيًا ضعيفًا. يبدو أن هذا التصنيف متجذر في الاختلاف بين البرمجة 
الخاضعة للإشراف وغير الخاضعة للإشراف. UE‏ ما يكون للمساعدين الشخصيين والشطرنج 
استجابة مخططة. إنهم يصنفون بناءً على أشياء مشابهة لما يعرفونه (من خلال التعلم من 
البيانات). إنها تقدم تجربة شبيهة بتجربة الإنسان » لكنها مجرد محاكاة. إذا طلبت من Alexa‏ 
تشغيل التلفزيون » فسيفهم المبرمج الكلمات الرئيسية مثل on and TV‏ تستجيب الخوارزمية 
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من خلال تشغيل التلفزيون e‏ ولكنها تستجيب فقط لبرامجها. بمعنى ST‏ أحد يفهم معنى ما 
تقوله. 

من ناحية أخرى e‏ هناك OV‏ لها عقولها الخاصة التي يمكنها اتخاذ قرارات مستقلة دون 
تدخل بشري. يمكن اعتبار هذه البرامج ذكاء اصطناعيًا C$‏ بمعنى آخر ء يشير الذكاء الاصطناعي 
القوي إلى الآلات أو البرامج التي لها عقولها الخاصة ويمكنها أداء المهام المعقدة بمفردها دون 
تدخل بشري. يتمتع الذكاء الاصطناعي القوي بخوارزمية معقدة تساعد الأنظمة على الأداء الجيد 
في مجموعة متنوعة من المواقف . ويمكن للآلات ذات الذكاء الاصطناعي القوي اتخاذ قرارات 
مستقلة دون تفاعل بشري. يمكن للآلات القوية ذات الذكاء الاصطناعي أداء المهام المعقدة 
بمفردها » GLS‏ مثل البشر. 

يعمل الذكاء الاصطناعي القوي الذي نشاهده في العديد من الأفلام مثل الدماغ. لا يصنف › 
ولكنه يستخدم التجميع والاتصال لمعالجة البيانات. باختصار » هذا يعني أنه لا توجد إجابة 
محددة لكلماتك الرئيسية. تحاكي الدالة النتيجة ‏ لكن في هذه الحالة c‏ لسنا متأكدين من النتيجة. 
مثل التحدث إلى DL]‏ يمكنك تخمين ما يجيب به الشخص ٠‏ لكنك لا تعرف على وجه 
اليقين. على سبيل المثال » قد يسمع الجهاز عبارة "صباح الخير" ويبدأ في توصيله مع تشغيل آلة 
صنع القهوة. إذاكان الكمبيوتر لديه هذه القدرة , فيمكنه نظريًا سماع "صباح الخير" ويقرر تشغيل 


آلة صنع القهوة. 
الفرق بين الذكاء الاصطناعى القوى والضعيف 
المعى 


الذكاء الاصطناعي القوي هو الشكل النظري للذكاء الاصطناعي ويقوم على افتراض أن الآلات 
يمكنها بالفعل تطوير الذكاء البشري بنفس الطريقة التي يتطور بها الإنسان. يشير الذكاء 
الاصطناعي القوي إلى آلة افتراضية توضح القدرات الإدراكية للإنسان. من ناحية أخرى . يعد 
الذكاء الاصطناعي الضعيف نوعًا من الذكاء الاصطناعي يشير إلى استخدام الخوارزميات 
المتقدمة elo‏ مهام محددة لحل المشكلات أو التفكير والتي لا تغطي النطاق الكامل للقدرات 


المعرفية البشرية. 
الوظيفة 


الأداء في الذكاء الاصطناعي الضعيف محدود مقارنة بالذكاء الاصطناعي القوي. لا يحقق الذكاء 
الاصطناعي الضعيف الوعي الذاتي أو لا يُظهر نطاق القدرات الإدراكية البشرية التي قد يمتلكها 
الإنسان. يشير الذكاء الاصطناعى الضعيف إلى الأنظمة التى تمت برمجتها elo d‏ مجموعة واسعة 
بع العام وا Ss scd das‏ و م أو ماد ی من ناحية أخرى » يشير 
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الذكاء الاصطناعي القوي إلى الآلات التى تظهر ذكاء الإنسان. الفكرة هى تطوير الذكاء الاصطناعي 
إلى الحد الذي يتفاعل فيه البشر مع الآلات التي يتم دفعها بوعي وذكاء ومع العواطف والوعي 
الذاتي. 

الهدف 

الهدف من الذكاء الاصطناعي الضعيف هو إنشاء تقنية تسمح للآلات وأجهزة الكمبيوتر بأداء 
مهام محددة لحل المشكلات أو التفكير بشكل أسرع بكثير من الإنسان. الغرض من الذكاء 
الاصطناعى القوي هو تطوير الذكاء الاصطناعى إلى الحد الذي يمكن اعتباره ذكاءً بشريًا حقيقيًا. 
الذكاء الاصطناعي القوي هو نوع لم يوجد بعد في شكله الحقيقي. 

ملخص للذكاء الاصطناءي القوي مقابل الذكاء الاصطناعي الضعيف 

باختصار » الذكاء الاصطناعي القوي هو في الأساس نوع من الذكاء الاصطناعي المتقدم بما يكفي 
لاعتباره ذكاءً حقيقيًا. يعتمد الذكاء الاصطناعي القوي على فرضية أن آلة الحوسبة جيدة التنظيم 
لديها عقل يفهم ويفكر وله غرض مثل العقل البشري. من ناحية أخرى . لا يحقق ضعف ASU‏ 
الاصطناعي الوعي الذاتي أو يظهر مجموعة واسعة من القدرات الإدراكية البشرية. ومن ثم . لا 
يمكن اعتبار برامج الذكاء الاصطناعي الضعيفة ذكية , لأنها في الحقيقة لا تستطيع التفكير واتخاذ 
القرار بمفردها مثل البشر. 


التعلم غير الإشرافى وتحسين استراتيجيات التعلم الآلى 
ترجع النجاحات الأخيرة في التعلم الآلي إلى توفر كميات كبيرة من البيانات » والتقدم في أجهزة 
الكمبيوتر e‏ والتقدم في خوارزميات التعلم الآلي. لكن هذه النجاحات اقتصرت على قضايا الذكاء 
الاصطناعي مثل تصنيف الصور ورؤية الكمبيوتر والتعرف على الكلام ومعالجة اللغة الطبيعية 
والترجمة الآلية. 

لحل مشاكل الذكاء الاصطناعي الطموحة » يجب أن نثبت قيمة التعلم غير الخاضع للإشراف. 
دعونا نلقى نظرة على بعض التحديات الأكثر شيوعًا التى يواجهها العلماء عند بناء الحلول وكيف 
يمكن أن يساعدهم التعلم غير الخاضع للإشراف. 
البيانات الموسومة غير كافية 
'أعتقد أن الذکكاء الاصطناعی aniy‏ ناء ا محرک كبير وكثير من 
الوقود. ll‏ كان لديك محرك كبير وكمية صغيرة من )2989 , فلا يمكنك الدخول (A‏ المدار. إذا 


كان لدیک محرك HÉA‏ و طن من الوقود , لا يمكنك حتى elias" achy‏ إلى محرك كبير وكثير 
من الوقود لبناء صاروخ." - أندر و ‘el‏ 


1 Andrew Ng 
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إذاكان التعلم الآلي عبارة عن مركبة فضائية » فستكون البيانات وقودها. بدون الكثير من EL‏ 
لا يمكن للمركبة الفضائية الطيران. لذلك e‏ لاستخدام خوارزميات التعلم الخاضع للإشراف « 
نحتاج إلى الكثير من البيانات المصنفة التي يصعب إنتاجها ومكلفتها. 

باستخدام التعلم غير الإشرافي » يمكننا تلقائيًا وضع علامة على العينات غير المسماة. الطريقة 
التي تعمل بها هي LÍ‏ نجمع' جميع العينات ثم نطبق العلامات من العينات المصنفة على العينات 
غير المسماة في نفس المجموعة. تتلقى العينات غير المصنفة تسمية العينات الأكثر تشابهًا. 
لعنه الأبعاد 


في مساحة كبيرة جد » تحتاج خوارزميات التعلم الخاضعة للإشراف إلى تعلم كيفية فصل النقاط 
من أجل إنشاء تقريب دالي لاتخاذ قرارات جيدة. ومع ذلك e‏ عندما تكون الميزات كثيرة » يصبح 
البحث GS‏ للغاية c‏ من الناحية الزمنية والحسابية. في بعض الحالات » من المستحيل إيجاد 
حل جيد بالسرعة الكافية. تعرف هذه المشكلة بالصعوبة متعددة الأبعاد (لعنة الابعاد) التى يكون 
التعلم غير الإشرافي مناسبًا للمساعدة في إدارتها. من خلال تقليل الأبعاد c‏ يمكننا العثور على 
أبرز الميزات في مجموعة الميزات الرئيسية e‏ وتقليل عدد الأبعاد إلى رقم أكثر قابلية للإدارة مع 
فقدان القليل جد من المعلومات المهمة في العملية » ثم نستخدم خوارزميات خاضعة للإشراف 
لأداء فعال لتقريب الأداء الجيد. 


هندسة الميزات 


تعد هندسة الميزات إحدى المهام الرئيسية التي يؤديها علماء البيانات. بدون الميزات 
الصحيحة. لن تتمكن خوارزمية التعلم الآلي من عزل BUS‏ كافية في الفضاء لاتخاذ قرارات جيدة 
بشأن العينات غير المرئية. ومع ذلك » فإن هندسة الميزات dale‏ ما تكون متطلبة للغاية. لأنه 
يتطلب من البشر تصميم النوع الصحيح من الميزات بشكل إبداعي. بدلا من ذلك » يمكننا 
استخدام التعلم التمثيلي من خوارزميات التعلم غير الإشرافية للتعرف GUE‏ على الأنواع المناسبة 
من تمثيل السمات للمساعدة فى حل المشكلة المطروحة. 

لإنشاء تمشيلات لميزات جديدة > يمكننا استخدام شبكة عصبية غير متكررة لأداء التعلم 
التمثيلي t‏ حيث يتوافق عدد الخلايا العصبية في طبقة الإخراج مع عدد الخلايا العصبية في طبقة 
الإدخال. تعرف هذه الشبكة العصبية بالتشفير الذاتي وتعيد إنتاج الميزات الرئيسية بفعالية 
وتتعلم تمثيلًا Me‏ باستخدام الطبقات المخفية بينها. تتعرف كل طبقة مخفية من المشفر الذاتي 
على تمثيل الميزات الرئيسية » ويتم بناء الطبقات اللاحقة على التمثيل الذي تعلمته الطبقات 


k clustering 


2 autoencoder 
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السابقة. طبقة تلو طبقة » يتعلم المشفر التلقائي تمثيلات أكثر تعقيد من أمثلة أبسط. Aib‏ 
المخرجات هي آخر تمثيل تم تعلمه حديتًا للميزات الرئيسية. أخيرًا e‏ يمكن استخدام هذا التمثيل 
المتعل م كمدخل لنموذج التعلم الخاضع للإشراف لتحسين خطأ التعميم.. 
التعلم التمثيلي 
يعتمد أداء أي نموذج للتعلم الآلي بشكل كبير على التمثيلات التي يتعلمها لتوليد المخرجات. 
هذا التمثيل المتعلم e‏ بدوره e‏ يعتمد بشكل مباشر على النموذج وما يتم تغذيته كمدخلات. تخيل 
مهندسًا يصمم نموذجًا للتعلم الآلي للتنبؤ بالخلايا الخبيثة le Fly‏ فحوصات الدماغ. لتصميم 
النموذج e‏ يجب أن يعتمد المهندس بشكل كبير على بيانات المريض OY‏ جميع الإجابات 
موجودة هنا. تصف كل ملاحظة أو ميزة في تلك البيانات خصائص المريض. يجب أن يتعلم 
نموذج التعلم الآلي الذي يتنباً بالنتائج كيف ترتبط كل سمة بنتائج مختلفة: حميدة أو خبيثة. لذلك 
إذاكان هناك أي تشويش أو تناقض في البيانات » فقد تكون النتيجة مختلفة e GLS‏ وهي مشكلة 
في معظم خوارزميات التعلم الآلي. تمتلك معظم خوارزميات التعلم Gei JY‏ سطحيًا للبيانات. 
فما هو الحل؟ الإجابة هي إعطاء الجهاز تمثيلاً أكثر تجريدا للبيانات. ومع ذلك » بالنسبة للعديد 
من المهام » من المستحيل معرفة الخصائص التي يجب استخراجها. هذا هو المكان الذي تدخل 
فيه فكرة التعلم التمثيلي. 

التعلم التمثيلي هو مجموعة فرعية من التعلم الآلي الذي يهدف إلى الحصول على ميزات جيدة 
ومفيدة للبيانات e GUE‏ دون إشراك مهندس ميزة. في هذا النهج 6 يأخذ الجهاز البيانات الأولية 
كمدخلات ويكتشف GEG‏ التمثيلات اللازمة لتحديد الميزة e‏ ثم يتعلم GEE‏ الميزات الجديدة 
ويطبقها. بعبارة أخرى c‏ الغرض من التعلم التمثيلي هو العثور على تحويل يرسم البيانات الأولية 
إلى التمثيل الأكثر ملاءمة لمهمة التعلم SY‏ (على سبيل المثال » التصنيف). نظرًا لأنه يمكن 
تفسير هذه الطريقة على أنها تعلم ميزات مفيدة e‏ فإنها تسمى أيضًا تعلم الميزات. 

في ole‏ التعلم التمثيلي ليس AST‏ من مجموعة من السمات التي تصف المفاهيم بشكل 
فردي. على سبيل المثال » يمكننا تمثيل الكائنات بألوانها وأشكالها وأحجامها وخصائصها. 
التمثيل هو شيء يساعدنا على التمييز بين المفاهيم المختلفة ويساعدنا بدوره على إيجاد أوجه 
التشابه بينها. 
التعلم االتمثيلى يقلل البيانات عالية الأبعاد إلى aAerin ally‏ الأبعاد . ويسهل Joico!‏ 
على الأنماط والشذوذ . كما يمنحنا فهما أفضل لسلوك البيانات. مع انخفاض تعقيد 


البيانات . يتم تقليل الانحرافات والضوضاء. يمكن أن يكون تقليل الضوضاء مفيدًا [a3‏ 
لخوارزميات التعلم الخاضع للإشراف. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


النقاط المتطرفة 


كما ذكر أعلاه c‏ فإن جودة البيانات مهمة للغاية. إذا تم تدريب خوارزميات التعلم الآلي على نقاط 
متطرفة نادرة ومشوهة . فإن تعميمها يكون أقل مما لو تم تجاهلها بشكل منفصل. من خلال 
التعلم غير الإشرافي . يمكننا اكتشاف النقاط المتطرفة باستخدام تقليل الأبعاد وإنشاء حل 
للبيانات المعيارية. 
انحراف البيانات' 


الفرضية الأساسية لتطوير أي نموذج للتعلم الآلي هي أن البيانات المستخدمة لتعليم النموذج 
تحاكي بيانات العالم الحقيقي. ولكن كيف يمكن تأكيد هذا الافتراض بعد إنشاء النموذج في 
الإنتاج؟ عندما تقوم بتدريب نموذج باستخدام نهج التعلم الخاضع للإشراف e‏ يتم تسمية بيانات 
التدريب » وعندما تنشر النموذج في الإنتاج (المعالجة) . لا توجد تسمية حقيقية . بغض النظر 
عن مدى Bo‏ نموذجك e‏ تكون التنبؤات صحيحة فقط إذا تم تقديم البيانات إلى النموذج في 
الإنتاج يحاكي (أو يكون WIS‏ إحصاتيًا) البيانات المستخدمة في التدريب. ماذا لو لم تفعل؟ 
فى هذه الحالة » نسميها انحراف البيانات. 

l‏ يجب أن تكون نماذج التعلم SM‏ على دراية بانحراف البيانات. إذا كانت البيانات التي يتنبا 
بها النموذج مختلفة إحصاتيًا عن البيانات التي يتم تدريب النموذج Uo‏ عليها » فقد يحتاج 
النموذج إلى إعادة التدريب على البيانات الأكثر دراية بالبيانات الحالية. إذا لم يتم إعادة تدريب 
النموذج أو لم يكتشف الانحراف . فستتأثر جودة توقع النموذج في البيانات الحالية. من خلال 
إنشاء توزيعات احتمالية باستخدام التعلم غير الإشرافي » يمكننا تقييم مدى اختلاف البيانات 
الحالية عن بيانات مجموعة التدريب. إذا كان الاثنان مختلفين LS‏ عن بعضهما البعض « 
فيمكننا البدء في إعادة التدريب SLAG‏ 


التجمبع (الكلاسديرينك) 


التجميع أو التحليل العنقودي مهمته تجميع مجموعة من الكائنات بحيث تكون الكائنات في 
مجموعة (تسمى العنقود او الكلاستر) أكثر GLES‏ مع بعضها البعض من المجموعات GEM‏ 
(العناقيد). بتعبير أدق . الهدف من تحليل الكلاستر (من الناحية المثالية) هو إيجاد مجموعات 
تكون فيها العينات داخل كل مجموعة متشابهة GLS‏ » بينما تختلف كل مجموعة LSS‏ عن 
بعضها البعض. الكلاستر ليست أكثر من تجميع نقاط البيانات بحيث تكون المسافة بين نقاط 
البيانات داخل الكلاستر ضئيلة. بمعنى ST‏ . المجموعات هى مناطق تكون فيها BUS‏ نقاط 


1 Data drift 


الفصل الثامن: التعلم غير الخاضع للاشراف A29‏ 


البيانات المتشابهة عالية. بشكل cele‏ يتم استخدام التجميع لتحليل مجموعة البيانات من أجل 
العثور على بيانات واستدلالات ثاقبة؟. أيضًا . تعتمد الاستنتاجات التي يتم استخلاصها من 
مجموعة البيانات على المستخدم . حيث لا توجد معايير محددة بشكل عام للتجميع الجيد. 

لإجراء هذا التحليل . تتلقى خوارزميات التجميع البيانات وتشكل هذه المجموعات 
(العناقيد) باستخدام بعض معايير التشابه. لتحقيق تجميع ناجح . يجب أن تحقق خوارزمية 
التجميع هدفين رئيسيين: )1( التشابه بين نقطة بيانات وأخرى e‏ و (2) » تشابه نقاط البيانات 
هذه مع نقاط أخرى تختلف بالتأكيد استكشافيًا عنها. لديك. ومن ثم » في عملية التجميع › 
يلعب معيار التشابه القائم على المسافة دورًا مهما في اتخاذ القرارات العنقودية. 

باستخدام الهدفين المذكورين أعلاه » يجب عليك اختيار خوارزمية التجميع التي من المحتمل 
أن تحصل على أفضل النتائج لمشكلتك الخاصة. تحتوي بعض خوارزميات التجميع على 
تعريفات مختلفة لماهية الكلاستر. على سبيل المثال e‏ قد تحدد عدة خوارزميات الكلاستر على 
أنها مجموعة من البيانات ذات أشكال هندسية محددة. على سبيل المثال « k-Means‏ « الذي 
يعرف الكلاستر على أنها مجموعة من الكائنات ذات شكل كروي. وفي الوقت نفسه . قد تفترض 
P‏ وف ال الات جا کت ی ا اا ت ی 
المثال .DBSCAN‏ بالإضافة إلى ذلك » هناك المزيد من التعريفات العنقودية. Gig‏ لذلك e‏ تعتمد 
جودة النتيجة على الملاءمة بين تعريف الكلاستر المفترض للخوارزميات والبنية العنقودية 
الجوهرية للبيانات. لذلك . عند محاولة إجراء هذا التحليل . من الأفضل أن يكون لديك معرفة 
مسبقة بتعريف الكلاستر الأكثر ملاءمة لمشكلتك. ومع ذلك e‏ قد لا تتوفر هذه المعرفة عند بدء 
عملية التجميع. هذا عادة ما يعقد التحليل. 
يمكن استخدام التجميع بمفرده لتحديد البنية الجوهرية للبيانات . فى حين أنه يمكن 
أيضًا أن يكون بمثابة تقنية معالجة مسبقة لمهام التعلم الأخرى Jio‏ التصنيف. على 
Juw‏ المثال . قد ترغب شركة Lo‏ فى تصنيف المستخدمين الجدد إلى "مجموعات" 


مختلفة . ولكن قد لا يكون ذلك Iaw‏ فى Jio‏ هذه الحالة . يمكننا استخدام التجميع 
لتجميع جميع المستخدمين فى مجموعات . حيث تمثل كل ais acgoro‏ مستخدم. 
بعد ذلك . يمكن clu‏ نموذج تصنيف على مجموعات لتصنيف مجموعات مستخدمين 


ددردة. 


1 insightful data 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


التجميع وانواعه 
بشكل رسمي » لنفترض أن لدينا مجموعة بيانات D = 121,262, ..., Xm}‏ تحتوي على عينات 
غير معنونة » حيث تكون كل عينة Xi = (Xiz; Xizi ..., Xin)‏ عبارة عن متجه N‏ أبعاد. Lady‏ 
لذلك. تقسم خوارزمية التجميع مجموعة البيانات D‏ إلى مجموعات منفصلة k‏ 
{Gl = 12,4]‏ 

حيث 0 = D SUL, Cys Ci Mint Ci‏ ومن ثم BB‏ نعرض k}‏ ,.. ,6]1,2ز1 به كعينة 
تسمية المجموعة 2. أخيرًا c‏ يمكن تمثيل نتيجة التجميع على أنها تسمية متجه للمجموعة 2 
À = (A1; Åz; ...; Am)‏ مع m pols‏ 

من الناحية المفاهيمية » يمكن اعتبار التجميع مشابها للتصنيف . من حيث أنه يحاول تعيين 
قيمة منفصلة لكل حالة. الاختلاف الوحيد هو أنه بينما يستخدم التصنيف عينات مصنفة لتعلم 
الأنماط في البيانات لفئات منفصلة c‏ فإن التجميع ليس له معرفة مسبقة بعضوية الفئة أو ما إذا 
كانت هناك فئات منفصلة في البيانات. ومن ثم e‏ فإن التجميع يصف مجموعة من الخوارزميات 
التي تحاول تحديد هيكل التجميع في مجموعة البيانات. باختصار c‏ الغرض من التجميع الوصف 
والغرض من التصنيف التنبؤ. اعتمادًا على استراتيجية التعلم المستخدمة . يمكن تقسيم 
خوارزميات التجميع إلى عدة فتات: 

٠‏ التجميع القائم على النموذج الأولي. 

e‏ التجميع على أساس الكثافة. 

e‏ المجموعات الهرمية. 
في استمرار لهذا القسم c‏ سنقوم بوصفهم. قبل ذلك e‏ دعونا أولاً نناقش مشكلتين أساسيتين في 
التجميع: تقييم الأداء وحساب المسافة. 


تقييم الاداء (مؤشرات المصداقية ') 


معايير التقييم الخاصة بالتجميع تسمى أيضًا مؤشرات الصلاحية. نظرًا لأن نتيجة التصنيف يتم 
تقييمها من خلال معايير أداء التعلم الخاضع للإشراف › فيجب أيضًا تقييم نتيجة التجميع من 
خلال بعض مؤشرات الصلاحية. قبل أن نتعمق في ذلك ٠‏ فإن تقييم ما إذاكانت مجموعة معينة 
جيدة أمر إشكالي ومثير للجدل. في الواقع ٠‏ كان بونر (1964) أول من Sale‏ بأنه لا يوجد تعريف 
التقييم. تنقسم هذه المعايير عادة إلى فئتين من مؤشرات المصداقية الداخلية والخارجية. يقارن 


1 validity indices 
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المؤشر الخارجي نتيجة التجميع بنموذج مرجعي e‏ بينما يقوم المؤشر الداخلي بتقييم نتيجة 
بالنظر إلى مجموعة البيانات «D = 3, x2, as Xm}‏ افترض أن خوارزمية التجميع تنتج 
عناقيد (C, C5, ..., Ck]‏ = © و ونموذج مرجعي للمجموعات [ير C = (C, C75, C‏ 
Gy‏ لذلك » دع A‏ و A‏ تشير إلى تسميات المجموعات © و cC"‏ على التوالي. ومن ثم » يمكننا 
تحديد التعبيرات الأربعة التالية لكل زوج من العينات: 
a= |SS|,SS = ((xox)l|AMj = A; 27 = Aji jj‏ 
Ñi < j}‏ عد b = |SD|,SD = {(x;x;) |i = ApAi‏ 
Apa = Aji < j}‏ د c= |DS|,DS = ((xoxj)li‏ 

d = |DD|,DD = {(xpx;) |4: عد‎ A, Aj * Ai < j} 
من أزواج من العينات . كلاهما ينتمي إلى مجموعة في © وأيضًا إلى مجموعة‎ SS حيث يتكون‎ 
من أزواج من العينات التي تنتمي إلى نفس المجموعة في © ولكن‎ SD في *6. تتكون مجموعة‎ 
كل زوج من العينات‎ OY بالمثل. نظرًا‎ DS و‎ DD ليست في *6. يمكن تفسير مجموعات‎ 

(xi, Xj) (i <j)‏ يمكن أن يظهر في مجموعة واحدة c häi‏ فلدينا: 


m(m — 1)‏ 
at+b+c+d AA‏ 
,3 للمصطلحات الأربعة المحددة أعلاه e‏ يمكن تعريف بعض المؤشرات الخارجية 
المشتركة على النحو التالي: 
o‏ معامل جاكاردا (JS)‏ 
0 
Ei RET‏ 
© مؤشر فولكس ومالوس* (FMD‏ 
0 0 
FMI = :‏ 
a+b 0 + 0‏ 
e‏ مؤشر راند (RI)‏ 
2(a + d)‏ 
m(m — 1)‏ ` 


1 Jaccard Coefficient 
2 Fowlkes and Mallows Index 


3 Rand Index 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


تأخذ مؤشرات المصداقية الخارجية المذكورة أعلاه UL‏ النطاق ]1 0]. كلما زادت قيمة 
المؤشرء كانت جودة التجميع أفضل. 

تعمل مؤشرات الصلاحية الداخلية على تقييم جودة التجميع بدون استخدام النموذج 
المرجعي. بالنظر إلى المجموعات التي تم إنشاؤها (C, C2, ..., Ce}‏ 6 يمكننا تحديد 
المصطلحات الأريعة التالية: 


avg(C) = dist (xi, xj) 


2 
ICI CIC] — 1) eee 
diam(C) = max,«i«j«|c|dist(xi, Xj) 
dmin (Ci Cj) — minec, y ec; dist(xi, Xj) 
deen (Ci, G) = dist (uj, uj) 
يقيس المسافة بين‎ dist(.,.) و‎ C يمثل مركز المجموعة‎ u= 2007 حيث‎ 
هو أكبر‎ diam(C) .C هو متوسط المسافة بين العيناتفي المجموعة‎ avg(C) be عينتين.‎ 
dose ,)موك هي المسافة بين أقرب‎ G) C مسافة بين العيناتفي المجموعة‎ 
Cj و‎ Cj هي المسافة بين مراكز المجموعات‎ deen (Ci, Cj) و‎ Cj Ci المجموعات‎ 
يمكن تعريف بعض مؤشرات المصداقية الداخلية الشائعة‎ e للمصطلحات المحددة أعلاه‎ É o 
على النحو التالي:‎ 
DBD مؤشر ديفيز بولدين'‎ e 
avg(C;) + avg(C; 
— zy ma T g(Ci) + avg(C; ae) aval) 
deen(Ci, C;) 
(DI) مؤشر دن‎ e 
dmin( Ci, G) 
DI = minı <; fi د‎ ues 
MIN, zizk {mie as 
إلى‎ DIS تجميع أفضلءفي المقابل» تشير القيمة الأكبر‎ ec 


! Davies-Bouldin Index 


? Dunn Index 


الفصل الثامن: التعلم غير الخاضع للاشراف du‏ 


حساب المسافة وحساب التشابه 


نظرًا OY‏ تجميع مجموعات العينات / الكائنات متشابه » هناك حاجة إلى نوع من المعايير لتكون 
528 على تحديد ما إذا كان کائنان متشابهين أو غير متماثلین. يتم استخدام نوعين رئيسيين من 
المعايير لتقدير هذه العلاقة: معيار المسافة ومعيار التشابه. 
تستخدم العديد من طرق التجميع معايير المسافة لتحديد التشابه أو الاختلاف بين كل زوج 

من الكائنات. يطلق على معيار المسافة dist(.,.)‏ معيار المسافة المترية إذا كان يفى 
بالخصائص التالية: 

dist(xi, xj) < 0: غير سلبي‎ .1 

dist(x;, xj) =0 S x= انعكاسىة: ند‎ 2 

dist(x;,x;) = dist(xj, x;) تناظرة‎ .3 

4. متباينة المثلث 4: dist(xj,x;) < dist(xi, xy) + dist(xy, xj)‏ 
غالبًا ما نحدد معايير التشابه من خلال بعض أنواع المسافات . وكلما زادت المسافة . قل التشابه. 
مينكوفسكي: معبار المسافة للخصائص العددية 


بالنظر إلى العينتين التاليتين Xj = (Ci Xi2i- Xin) l -n‏ و Xj—‏ 
لوو ja EX‏ ق السصول dI d‏ بين این باشخا کاس کر فک 
على النحو التالي: 


1 

dist(xix;) = bx — xnl + [aio xl" + t [ep - xl”)? 
والحد‎ c ومسافة مانهاتن‎ e نحصل على المسافة الإقليدية‎ co و‎ Lig = 2 أنه إذاكانت‎ Loy 
على التوالي.‎ c الأقصى للمسافة‎ 

يمكن أن تؤثر وحدة القياس المستخدمة على تحليل المجموعات. لتجنب الاعتماد على 
اختيار وحدة القياس . يجب مزامنة البيانات (قياسها). المعيار المطابق يحاول إعطاء كل 
المتغيرات نفس الأهمية. ومع US‏ إذا تم ترجيح كل متغير Gig‏ لأهميته e‏ فيمكن حساب 
المسافة الموزونة على النحو التالي: 


1 Non-negativity 
2 reflexivity 
3 Symmetry 


4 triangle inequality 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


كام — t W2 |Xiz — xj; [* Tec Wi|xig‏ “د — dist (xi, xj) = (wı [xi‏ 
جايى كه WELO, e»)‏ است. 
معيار المسافة للخصائص الثنائية 
فى حالة الخصائص الثنائية . يمكن حساب المسافة بين الأشياء Fy‏ على جدول التمريرا. تكون 
W‏ الثنائية متماثلة إذا كان لكلا الوضعين نفس القيمة. في هذه الحالة » باستخدام معامل 
المطابقة البسيطة . يمكن تقييم الاختلاف بين الكائنين: 

r+s 


dist(x;, xj) = TTT, 
0 هو عدد الخصائص التي تساوي‎ Ee حيث 0 هو عدد الخصائص التي تساوي 1 لكلا الكائنين‎ 
لكلا الكائنين »7 و 5 و هي عدد الخصائص غير المتكافئة لكلا الكائنين.‎ 
معبار المسافة للخصائص الاسمية‎ 
يمكن استخدام نهجين رئيسيين:‎ e عندما تكون السمات اسمية‎ 
تطابق بسيط:‎ .1 
dist(x;, xj) = -— 
هو عدد التطابقات.‎ M هو العدد الإجمالي للخصائص و‎ D حيث‎ 


2. إنشاء سمة ثنائية لكل حالة من كل ميزة اسمية وحساب الاختلاف بينها. 


التجميع القائم على النموذج الأولى" 


تجميع النموذج الأولي » المعروف أيضًا باسم التجميع المستند إلى النموذج الأولي . هو Able‏ 
من خوارزميات التجميع التي تفترض أنه يمكن تمثيل بنية التجميع بمجموعة من النماذج الأولية. 
عادة ما تبدأ هذه الخوارزميات ببعض النماذج الأولية ثم تقوم بتحديث النماذج الأولية وتحسينها 
بشكل متكرر. تم تطوير العديد من الخوارزميات باستخدام نهج النموذج الأولي وطرق التحسين 
المختلفة. ومع ذلك » في استمرار هذا القسم » سئناقش مثالين فقط من خوارزميات التجميع 
المستندة إلى النموذج الأولي . وهما مجموعات k- Means‏ والتجميع المختلط -Gaussian‏ 


l contingency table 


2 simple matching coefficient 


7 Prototype clustering 
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k-Means التجميع‎ 


تقنية التجميع K-mean‏ بسيطة ونبدأ بشرح الخوارزمية الرئيسية. نختار أولاً K‏ المركز الأوليء 
حيث K‏ هي oles‏ يحدده المستخدم » أي عدد المجموعات المطلوبة. ثم يتم تعيين كل نقطة 
كل عنقود sly‏ على النقاط المخصصة للمجموعة. نكرر خطوات التعيين والتحديث حتى لا تتغير 
أي bla‏ في المجموعات » بمعنى آخر » طالما ظلت المراكز ثابتة. 

ضع في اعتبارك البيانات التي معيار التشابه هو المسافة الإقليدية. بالنسبة للدالة الموضوعية › 
التي تقيس جودة التجميع » نستخدم تقليل الخطأ التربيعي". بمعنى آخر . نحسب أولاً خطأ كل 
نقطة بيانات Gi)‏ المسافة الإقليدية لأقرب مركز) ثم مجموع مربعات الأخطاء. بالنظر إلى 
مجموعتين مختلفتين من المجموعات التي تم إنشاؤها بواسطة تطبيقين مختلفين للوسائل KK‏ 
فإننا نفضل المجموعة التي بها أخطاء المربعات الصغرى. OY‏ يعني أن النماذج الأولية (الوسط) 
لهذه المجموعة تمثل تمثيلًا أفضل للنقاط الموجودة في مجموعتها. 

ببشكل رسمي .ء بالنظر إلى مجموعة البيانات «D = 121,22, ... , Xm}‏ تقلل خوارزمية k-‏ 
mean‏ الخطأ التربيعي للمجموعات (C, Co, ..., Cy}‏ = €: 


k 
B=) Y lx- null 


i-1 60+ 


حيث ie Exec‏ = زل و متوسط متجه مجموعة:.). بشكل حدسي » تظهر المعادلة أعلاه 
التقارب (الجوار) بين متوسط متجه المجموعة والعينات داخل تلك المجموعة » حيث يشير 
الحرف ‏ الأصغر إلى التشابه داخل الكتلة الأعلى. ومع ذلك e‏ فإن تقليل E‏ ليس بالأمر السهلء 
لأنه يتطلب تقييم جميع الأقسام الممكنة لمجموعة بيانات «D‏ والتي تعد في الواقع مساله NP-‏ 
hard‏ ومن ثم » ob‏ خوارزمية k-mean‏ تتبنى استراتيجية جشعة وتعتمد طريقة تحسين 
تكرارية للعثور على الحل التقريبي. في هذه الخوارزمية . أولاً » يتم تهيئة المتجهات المتوسطة 
ويتم تحديث المجموعات والمتجهات المتوسطة بشكل متكرر . على التوالي. عندما لا تتغير 
المجموعات بعد تكرار واحد . يتم إرجاع المجموعات الحالية. 

فيما يلي مثال لفهم أفضل. ومع ذلك › فإننا نعرض الخوارزمية في حالة لا يوجد فيها سوى 
متغيرين فقط بحيث يمكن تمثيل نقاط البيانات ومراكز المجموعة Gua‏ بنقاط على مستوى 
إحداثي. نحسب المسافة بين النقطتين (XX2)‏ و (Yp y3)‏ باستخدام صيغة المسافة 
الإقليدية: 


1 minimizes the squared error 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


lx — yl| = y 6a = y1)? + Go - 7‏ 
مثال. باستخدام خوارزمية نقاط البيانات » نريد تقسيم الجدول التالي إلى مجموعتين: 


x1 1 2 2 3 4 5 
% 1 1 3 2 3 5 


يمكن U5)‏ مخطط مبعثر البيانات فى الشكل أدناه: 


21 5 4 3 2 1 0 
OVI‏ سوف نصف الخوارزمية خطوة بخطوة: 
1. في المشكلة e‏ العدد المطلوب من العناقيد هو 2. ومن ثم › قمنا بتعيين 2 k=‏ 


2. نختار نقطتين كمراكز المجموعة الأولية. bes‏ نختار )2,1( = ,0 و )2,3( = By‏ 
3 فنحسب BUS‏ البيانات الأصلية من مراكز المجموعة: 


X; bus Dy = المراكز المعينة أقصر مسافة المسافة من = را المسافة من‎ 
البيانات‎ (2,1) (2,3) 
X1 )1,1( 1 2.24 1 V, 
X; Q,D 0 2 0 V, 
X; (2,3) 2 0 0 D, 
X, (3,2 1.41 1.41 0 21 
Xs (43) 2.82 3 2 V, 
Xs 6,5) 5 3.61 3.61 V; 


(المسافةيئة از Vy‏ و Do‏ متساوية. قمنا بشكل اختياري بتعیین V‏ را به (X‏ 
بناءً على ذلك يتم تقسيم البيانات إلى مجموعتين على النحو التالي: 
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0 1 2 3 4 5 21 
Dy به‎ (X, X2, X4) المجموعة1: تم تعيين‎ 
Cy = 3 البيانات فى المجموعة1:‎ BUS عدد‎ 
Va به‎ (Xs, Xs, Xe} المجموعة 2: تم تعيين‎ 
Cz = 3 :2 نقاط البيانات في المجموعة‎ ote 
x geli goo de do peni lys إعادة خاب‎ ad 
1 
V, = 7) + %2 T X4) 
Cy 
1 > > > 
= 3 05 + X2 + X4) 
= (2.00,1.33) 
1 
V5 = — (X3 + Xs + Xe) 
C; 
1 > > > 
= 3 5 T Xs + Xg) 
— (3.67,3.67) 
البانانتة المعطاة من مراك الك الجديدة‎ Das تحب نسافة‎ 5 


X; البيانات‎ bus Dy = المسافة من‎ Dy المراكز المعينة اقصر مسافة المسافة من-‎ 
(2,1.33) (3.67,3.67) 
Xy )1,1( 1.05 3.77 1.05 V, 
X, (2,1) 0.33 3.14 0.33 21 
X; (2,3) 1.67 1.80 1.67 V, 
X, (3,2) 1.20 1.80 1.20 21 
Xs (43) 2.60 0.75 0.75 V, 
Xs (5,5) 4.74 1.89 1.89 72 


E 


le Fy‏ ذلك » يتم تقسيم البيانات إلى مجموعتين على النحو التالي: 
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TI 
5 1 e! 
[ ١ 
0 I 
! ١ 
١ [ 
[ 
4 JU 
١0 ü2 ١ 
! i 
Cos eee iic | 1 
3 ١ e. i! ب‎ ! 
I i! ا‎ a ln 1 
] ١ 
] ١ 
2 | e 
] ] 
] = ] 
] OU, ! 
1 e e ] 
E ات‎ yc cela En Rd anna ] 


0 1 2 3 4 5 21 
Dy به‎ (3, X2, Xs, X4) المجموعة 1: تم تعيين‎ 
Cy = 4 :1 عدد نقاط البيانات فى المجموعة‎ 
Va به‎ (Xs, Xo) المجموعة 2: تم تعيين‎ 
C5 = 2 :2 نقاط البيانات فى المجموعة‎ ste 
x geli goo حساب مزاكن المجموعة على‎ Sale| يتم‎ 6 
1 
D1 = — (X4 TX, T Xa TX) 
C, 
1 > > > > 
= z% Tx T X3 T X4) 
— (2.00,1.75) 
> 1 > > 
v2 = c; e + X6) 
= 7; 5 + %6) 


)4.5,4( = 
7. نحسب مسافة نقاط البيانات المعطاة من مراكز المجموعة الجديدة: 


Xi نقاط داده‎ Dy فاصله از‎ V از‎ alob مركز اختصاص داده شده كمترين فاصله‎ 
Xi (1,D 1.25 4.61 1.25 21 
X, (2,1) 0.75 3.91 0.75 21 
X; 2,3) 1.25 2.69 1.25 V, 
X, (3,2) 1.03 2.50 1.03 V, 
Xs (4,3) 2.36 1.12 1.12 v, 
Xe (5,5) 4.42 1.12 1.12 V, 


zo‏ على ذلك + يتم تقسيم البيانات إلى مجموعتين على النحو التالي: 
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22 م‎ 
5 | e 
4 ' Of | 
3 be e i ١ e ] 
2| | MEI 
1 021 ١ 
1 L e. | 


— 
0 1 2 3 4 5 21 
Dy به‎ (35, X2, X4, X4) المجموعة 1: تم تعيين‎ 
Cy = 4 :1 عدد نقاط البيانات فى المجموعة‎ 
Da به‎ (Xs, Xs] خوشه 2: تم تعيين‎ 
Cy = 2 :2 نقاط البيانات فى المجموعة‎ ste 
x gll ساب ماكر المبضوعة على الع ر‎ Bale] E 
1 
Ta = — (X4 TX, + X4 TX) 
C, 
1 > > > > 
= z% Tx T X3 T X4) 
— (2.00,1.75) 
> 1 > > 
v, = c; e + X6) 
1 > > 
= 7s + Xg) 
= (4.5,4) 


9. نظرًا لأن هذه هي نفس مراكز المجموعات المحسوبة Gona‏ فلن يكون هناك إعادة 
توزيع لنقاط البيانات إلى مجموعات أخرى » وبالتالي تتوقف الحسابات هنا. 


0. تتيجة لذلك » يتم الحصول على مجموعات من المراكز التالية على النحو التالي: 
المجموعة 1 Duda Ray at‏ به )2,1.75( = E‏ 
المجموعة 2 (X. Xs)‏ به )4.5,4( = By‏ 
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مميزات التجميع k-means‏ 
" لها تعقيد زمني خطي. ومن ثم فهو سريع وفعال. 
" إرجاع المجموعات التي يسهل تفسيرها وحتى تصورها. يمكن أن تكون هذه البساطة 
مفيدة للغاية في بعض الحالات حيث تحتاج إلى نظرة عامة سريعة على أقسام البيانات. 
" سهلة التنفيذ. 
معايب خوشهبندى k-means‏ 
t‏ تحتاج خوارزمية التعلم إلى تحديد عدد مراكز المجموعات مقدمًا. 
m‏ تعتمد مراكز المجموعة النهائية على المراكز الأولية المختارة. بمعنى آخر » تؤدي 
التقسيمات الأولية المختلفة إلى مجموعات نهائية مختلفة. 
m‏ حساسة للمواقع البعيدة. 


التعقيد المكاني والزماني 


المساحة المطلوبة للوسائل × ليست كبيرة e‏ حيث يتم تخزين نقاط البيانات والمراكز فقط. 
بشكل عام » التخزين المطلوب هو OCM + K)n)‏ حيث m‏ هو عدد النقاط و ۸ هو 
عدد السمات. الوقت المطلوب للوسائل K‏ خطي من حيث عدد نقاط البيانات. بشكل عام » 
الوقت المطلوب هو OU × 76 × MXN)‏ حيث I‏ هو عدد التكرارات المطلوبة للتقارب. 
OU‏ ما أكون صغيرًا ويمكن عادة تقييده بأمان » حيث تحدث معظم التغييرات Sale.‏ خلال 
التكرارات القليلة الأولى. لذلك . K-means ob‏ من حيث m‏ (عدد النقاط) خطي وفعال 
وبسيط؛ بشرط أن يكون K‏ (عدد المجموعات) أقل بكثير من . 


التجميع الغاوسى المختلط 


في القسم السابق » قدمنا المجموعات i k‏ وهو أحد أكثر طرق التجميع استخدامًا. تعمل هذه 
الطريقة غير البارامترية بشكل رائع لتجميع البيانات مع بعض الميزات. في هذا القسم » سنفحص 
طريقة بارامترية تستخدم التوزيع الغاوسي . والمعروفة باسم نموذج غاوسي المختلط. تتمثل 
إحدى نقاط القوة في تجميع نموذج غاوسي المختلط في أنه طريقة تجميع ناعمة. بعبارات أبسطء 
فإنه يناسب مجموعة من النماذج الممكنة مع البيانات ويحدد احتمال الانتماء إلى كل حالة. هذا 
يسمح لنا بفحص احتمال أن كل عنصر ينتمي إلى كل مجموعة. وبالتالي » فإن التجميع النموذجي 
المختلط يناسب مجموعة من النماذج الممكنة مع البيانات. يمكن أن تكون هذه النماذج مجموعة 
متنوعة من التوزيعات الممكنة » ولكنها dale‏ ما تكون توزيعات غاوسية. يُطلق على نهج التجميع 
هذا اسم النمذجة المختلطة UM‏ نلائم توزيعات متعددة محتملة (مخاليط) للبيانات. وبالتالي e‏ 
فإن النموذج الغاوسي المختلط هو ببساطة نموذج يناسب توزيعات غاوسي المتعددة في مجموعة 
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من البيانات. يمثل كل غاوسي في النموذج المختلط مجموعة محتملة. بمجرد أن يكون مزيج 
غاوسي الخاص بنا متسقًا مع البيانات قدر الإمكان » يمكننا حساب احتمال أن كل عنصر ينتمي 
إلى كل مجموعة وتعيين العناصر إلى المجموعة الأكثر احتمالية. السؤال الذي يطرح نفسه هنا 
هو أنه ليس لدينا معرفة بالتوزيع الذي تم اشتقاق كل عينة تدريب منه e‏ ولا معاملات النموذج 
المختلط . ومع ذلك . كيف يمكننا العثور على مجموعة من غاوسي تتطابق جيدا مع البيانات 
الأساسية؟ يمكننا اعتماد وتكرار الطريقة المستخدمة في خوارزمية التجميع -k-means‏ وبالتاليء 
نبدأ بالتخمينات الأولية للمعاملات ونستخدمها لحساب احتمالات المجموعة لكل حالة. بعد 
ذلك e‏ نستخدم هذه الاحتمالات لإعادة تقدير المعاملات وتكرار هذه الدورة حتى التقارب. يتم 
ذلك عن طريق خوارزمية تسمى تعظيم التوقع'. 

في ظل ظروف معينة . يمكن تفسير k-means‏ ونموذج الخليط الغاوسي ببعضهما البعض. 
في k-means‏ « يتم تعيين النقاط الأقرب إلى مركز المجموعة مباشرة إلى مركز المجموعة هذا e‏ 
بافتراض أن المجموعات يتم تحجيمها بشكل مشابه وأن تباين المميزات لا يختلف. هذا هو 
السبب في أنه OL‏ ما يكون من المنطقي توحيد بياناتك قبل استخدام -k-means‏ ومع ذلك Yo‏ 
Sly‏ خليط غاوسي من مثل هذا القيد c‏ لأنهم يسعون إلى نمذجة التغاير المحدد لكل عنقود. 
بعبارة أخرى . على عكس Vs k-means‏ تستخدم مجموعات الخليط الغاوسي نواقل النموذج 
الأولي؛ ولكنها تستخدم النماذج الممكنة لتمثيل هياكل العنقودية. تفترض النماذج المختلطة من 
غاوسيان أن كل ملاحظة في مجموعة بيانات تختلف عن توزيع غاوسيان بمتوسط وتباين. من 
خلال ملاءمة البيانات للنموذج المختلط غاوسي e‏ هدفنا هو تقدير معاملات التوزيع الغاوسي 
باستخدام البيانات. إذاكان هذا يبدو محيرا Uem‏ الشيء > فلا تقلق! سنراجع هذه المفاهيم بمزيد 
من التفصيل. ومع ذلك e‏ قبل مناقشة هذه الخوارزمية بمزيد من التفصيل i‏ دعنا نراجع تعريف 
التوزيع الغاوسى (متعدد المتغيرات). 

ربما سمعت عن التوزيع الغاوسي » الذي يُعرف أحيانًا بالتوزيع الطبيعي e‏ ولكن ما هو التوزيع 
الغاوسي بالضبط؟ سنقدم لك التعريف الرياضي قريبًا > ولكن من الناحية النوعية يمكن اعتباره 
توزيعًا يحدث بشكل طبيعي ومتكرر جداً. 

بالنسبة للمتجه العشوائي × في فضاء عينة n‏ ذات أبعاد y‏ » إذا كان X‏ يتبع التوزيع غاوسيانء 
فإن دالة كثافة الاحتمال الخاصة به تساوي: 


: )13م‎ e-2 6-4) 


(2r)2|Z|Z 


p(x) = 


1 0 uem 
expectation-maximization 
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حيث ل متجه متوسط الأبعاد N‏ و عبارة عن مصفوفة تغاير N‏ × ۸. من المعادلة أعلاه » يمكننا 
أن نرى أن التوزيع الغوسي محدد GLS‏ بواسطة المتجه المتوسط E‏ ومصفوفة التغاير الخاصة به 
LX‏ لإظهار هذا الاعتماد بشكل أكثر وضوحًا . نكتب دالة كثافة الاحتمال E) S‏ ,لم | P(X‏ 
يتم تعريف توزيع المخاليط الغاوسية على النحو التالي: 
k‏ 
Puc (x) = 2. a. p(x | i, X)‏ 
1-1 
والذي يتكون من مكونات ۸ للخليط ‏ كل منها مرتبط بتوزيع غاوسيان . i‏ و Xi‏ هي معاملات 
مكونات الخليط el‏ 0 > زه هي معاملات الخليط المقابلة حيث 0 < ننه . افترض أن العينات 
تم إنشاؤها من توزيع خليط غاوسي بالعملية التالية: 
حدد مكون الخليط الغاوسي باستخدام التوزيع المحدد Gre‏ المحدد بواسطة Q4, 04, ..., Ap‏ 
حيث aj‏ هو احتمال اختيار مكون خليط celi‏ ثم يقوم بتوليد العينات عن طريق أخذ عينات من 
دوال الكثافة الاحتمالية لمكون الخليط المحدد. 
لنفترض أن D = {X1 ×2, ..., Xm}‏ هي مجموعة تدريبية تم إنشاؤها بواسطة العملية 
المذكورة أعلاه و Zj€(1,2, ..., K}‏ هي متغير عشوائي لمكون الخليط الغاوسي الذي ينتج العينة 
xj‏ في مكان ما. قيم Zj‏ غير معروفة. بما أن الاحتمال السابق i)‏ = ;۲)2 ل Z‏ يتوافق مع 
efi = 1,2, ...,k}‏ التوزيع اللاحق ز2 Gas c‏ لنظرية بايز « يساوي: 


a. pu (x; |2j = i) 
Puc (xj) 
_ P(g = i). P(x lan Ei) 
ET a, . P(x;| u, X1) 
LAS يتم إنتاجه بواسطة مكون‎ x; الاحتمال الأخير بأن‎ Px (zi = i|x;) بمعنى آخر › يعطي‎ 
4 = 1,2, ..., k حيث‎ yj غاوسي 1. للسهولة » نشير إليه بواسطة‎ 
ويتم إعطاء‎ k إلى مجموعات‎ D بمجرد معرفة توزيع خليط غاوسي » يمكن تقسيم مجموعة‎ 
وبالتالي « من منظور‎ Aj = argmaxiqi, yj لكل عينة ز× بواسطة‎ Àj تخصيص المجموعة‎ 
تجميع النموذج الأولي € تستخدم مجموعة خليط غاوسي نماذج احتمالية (مع توزيع غاوسي)‎ 
ويتم تخصيص المجموعات بواسطة الاحتمالات اللاحقة للنماذج‎ c لتمثيل النماذج الأولية‎ 
الأولية.‎ 
تحسين معاملات النموذج؟ تتمثل إحدى طرق تطبيق تقدير الاحتمالية‎ LAS الآن السؤال هو‎ 
التحقق:‎ (Log) في تعظيم‎ D القصوى على مجموعة بيانات‎ 


pulz = i) = 
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LL(D) = ln | [rŒ 
j=1 


= 3 In 0 ai. P(x; | مزلا‎ 3) 


j=1 i=1 

والتي عادة ما يتم حلها عن طريق خوارزمية تعظيم التوقعات (EM)‏ 

تتكون خوارزمية EM‏ (كما يوحي اسمها) من مرحلتين: التوقع والتعظيم. مرحلة الانتظار هي 
حيث يتم حساب الاحتمالات اللاحقة لكل حالة لغاوسيان(الشكل (ب) 1-8 لغاوسيان أحادي 
البعد والشكل 2-8 (b)‏ لغاوسيان أكبر من بعد واحد). في هذه المرحلة c‏ تستخدم الخوارزمية 
نظرية بايز لحساب الاحتمالات اللاحقة. الخطوة التالية هي التعظيم. تتمثل مهمة خطوة التعظيم 
في تحديث معاملات النموذج المختلط لتعظيم صحة البيانات. استنادًا إلى نظرية بايز و = yj‏ 
pz = ib)‏ يتم إجراء تحديث المتوسط على النحو التالي: 


بمعنى آخر » يمكن حساب المتوسط (الذي يشير إلى مركز المجموعة) لكل غاوسي على أنه 
المحدد. يحدث التغاير (يحدد العرض) لكل غاوسيان بطريقة مماثلة: 
T‏ 
T 21 FR = BOY — uu)‏ 
ا =o‏ 
Yji‏ 2 
آخر شيء يجب تحديثه هو الاحتمالات السابقة لكل غاوسي. يتم حساب السجلات الجديدة 
(معامل الخليط) عن طريق جمع الاحتمالات اللاحقة لغاوسيان معين والقسمة على عدد 
العينات: 
m‏ 
aya Vii‏ _ 


Q; = 
i m 
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جدول 1-8 قاعدة بيانات البطيخ )2021 (Zhou,‏ 


ID density sugar||ID density sugar||ID density sugar 
1 0.697 0.460 0.748 0.232 
2 0.774 0.376 0.714 0.346 
3 0.634 0.264 0.483 0.312 
4 0.608 0.318 0.478 0.4317 
5 0.556 0.215 0.525 0.369 
6 0.403 0237 0.751 0.489 
7 0.481 0.149 0.532 0.472 
8 0.437 0.211 0.473 0.376 
9 0.666 0.091 0.725 0.445 
10 0.243 0.267 0.446 0.459 


(T)‏ القيم الأولية لغاوسي 


(ب) حساب الاحتمال اللاحق لكل 
حالة لكل غاوسي 


t تحديث المتوسطات‎ (z) 
والتباينات (تعظيم)‎ 


(د) تكرار دورة الانتظار - تعظيم 
حت التقارب 


الموجودة على طول خط الأعداد. يتم تعيين اثنين من غاوسي بشكل عشوائي على طول خط التهيئة. في مرحلة الانتظار 
يتم حساب الاحتمال اللاحق لكل عنصر لكل غاوس . وفي مرحلة التعظيم c‏ المتوسطات ٠‏ التباينات (في هذا المثالء 
نظرًا لوجودها في d‏ واحد . يتم استخدام التباين بدلاً من التباين المشترك) والاحتمالات السابقة لكل غاوسي يتم 
حسابها على أساس الامتدادات المحسوبة. تستمر هذه العملية حتى يتقارب الاحتمال. 
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(ب) خطوة الانتظار (T)‏ القيم الأولية لغاوسي به شكل عشوائي 


1. المحاسبة اللاحقة لكل حالة 0 o9‏ 


(د) تكرار حتى التقارب (ج) خطوة التعظيم 
2. تحديث مصفوفات التباين و i‏ 
E‏ 3. تكرار دورة الانتظار مادام هناك تحسن — 
طفيف في الاحتمالية 
D RP‏ 
Y ^‏ تكرا جرخه انتظار- بيشينهسازى تا زمانى ð‏ 
كه بهبود در درست نمايى ناجيز باشد 


الشكل 2-8. خوارزمية تعظيم الانتظار لغاوسي ثنائي الأبعاد. يتم تهيئة اثنين من غاوسي بشكل 
عشوائي في مساحة الميزة. في مرحلة الانتظار . يتم حساب الاحتماللات اللاحقة لكل حالة لكل غاوس. في مرحلة 
التعظيم c‏ يتم تحديث المتوسطات ومصفوفات التغاير والخلفيات لكل غاوسي ely‏ على الامتدادات. تستمر هذه 
العملية حتى يتقارب الاحتمال. 
عند اكتمال خطوة التعظيم i‏ نقوم بتكرار آخر لخطوة الانتظار e‏ هذه المرة بحساب الاحتمالات 
اللاحقة لكل عنصر تحت غاوسيان الجديد. عند الانتهاء من ذلك e‏ نقوم بتشغيل خطوة التعظيم 
مرة أخرى ونقوم بتحديث المتوسطات والتفاوتات ومعاملات الخلط (الخلفيات) لكل غاوسي 
sU‏ على ما يلي. تستمر دورة تعظيم التوقع هذه بشكل متكرر حتى تصل إلى عدد معين من 
التكرارات أو تتغير الصلاحية الإجمالية للبيانات تحت النموذج إلى ما دون قيمة معينة (التقارب). 
لتجميع نموذج غاوسي المختلط. افترض أن عدد مكونات خليط غاوسي هو 3 = Oly k‏ 
الخوارزمية تبدأ بتهيئة المعامل التالى: 
1 
X27;‏ = ولا Hy = X6; H2 = X22;‏ 3 
2 0.1 
0.1 0.0 
في التكرار الأول » تحسب الخوارزمية الاحتمالات اللاحقة للعينات Gb S‏ لحقيقة أنها تم إنشاؤها 
بواسطة كل مكون مختلط. على سبيل المثال » بالنظر إلى «x4‏ فإن الاحتمالات اللاحقة المحسوبة 


Q4 = Az = وان‎ = 


کر 
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بعد حساب الاحتمالات اللاحقة لجميع العينات فيما يتعلق بجميع مكونات الخليط « نحصل 
على معاملات النموذج المحدثة التالية: 


á; = 0.361; و‎ = 0.323; á; = 0.316 
fi, = (0.491,0.251); fly = (0.571,0.281); fiz = (0.534,0.295) 


0.004 0.025( | > 
ioo 20)‏ عاد 
0.004 0.023( _ > 
m (004 00152‏ 
0.005 0.024( _ > 
m Logos bo‏ 
تتكرر عملية التحديث المذكورة أعلاه حتى التقارب. . يوضح الشكل 7.3 نتائج التجميع بعد 
تكرارات مختلفة. 
(ب) بعد 10 تكرارات )1( بعد 5 تكرارات 


0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.9 0.8 0.7 0.6 0.5 0.4 9.3 9.2 9.1 
density density‏ 
(د) بعد 50 تکرارات (ج) بعد 20 تكرارات 


0 
01 02 03 04 05 06 07 08 09 
density 


01 03 04 05 06 07 08 09 
density 


الشكل 3-8 نتائج خوارزمية تجميع النموذج الغاوسي المختلط بعد تكرارات مختلفة في 


مجموعة بيانات البطيخ (الجدول 1-8( مع 3 = .K‏ يتم عرض المتجهات المتوسطة لمكون 
الخليط الغاوسي بالرمز "+". 
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السيناريوهات المستخدمة في نموذج غاوسي المختلط 

" في حالة تحليل السلاسل الزمنية c‏ يمكن استخدام نموذج غاوسيان المختلط لاكتشاف 
Las‏ ارتباط التقلبات بالاتجاهات والضوضاء . والتي يمكن أن تساعد في التنبؤ بأسعار 
الأسهم المستقبلية. يمكن أن تتكون مجموعة واحدة من اتجاه في سلسلة زمنية » في حين 
أن مجموعة أخرى يمكن أن يكون لها ضوضاء وتقلبات من عوامل أخرى مثل الموسمية 
أو الأحداث الخارجية التي تؤثر على أسعار الأسهم. لفصل هذه المجموعات . يمكن 
استخدام نموذج مختلط غاوسي. لأنه بدلاً من مجرد تقسيم البيانات إلى قسمين e‏ مثل 
K-means‏ » فإنها توفر احتمالا لكل فتة. 

E‏ يحدث bite‏ تكون هناك مجموعات مختلفة في مجموعة بيانات ولا يمكن تصنيفها 
على أنها تنتمي إلى مجموعة أو أخرى. يمكن استخدام نموذج الخليط غاوسي في هذه 
الحالة. هذا لأنهم وجدوا نماذج غاوسيان التي تصف كل مجموعة بشكل أفضل وتوفر 
إمكانية لكل مجموعة والتي تكون مفيدة عند وضع علامات على المجموعات. 

" مثال آخر يمكن أن يكون فيه النموذج المختلط الغاوسي مفيدا عندما نريد اكتشاف 
المجموعات الأساسية للفتات مثل أنواع السرطان أو عوامل الخطر المرتبطة بأنواع 
مختلفة من السرطان. 

تطبيق نموذج جاوس المختلط 
هناك العديد من المشكلات المختلفة في العالم الحقيقي التي يمكن حلها باستخدام نماذج 
غاوسي المختلطة. تعد النماذج المختلطة من غاوسيان مفيدة للغاية عندما تكون هناك مجموعة 
بيانات كبيرة ويصعب العثور على المجموعات. هذا هو المكان الذي يمكن فيه للنماذج المختلطة 
غاوسي العثور على مجموعات غاوسيان بشكل أكثر كفاءة من خوارزميات التجميع الأخرى مثل 
.k-mean‏ 

بعض المشاكل التي يمكن حلها باستخدام النماذج المختلطة غاوسي مذكورة أدناه: 

" البحث عن أنماط في مجموعات البيانات الطبية: يمكن استخدام النماذج المختلطة 
الغاوسية لتصنيف الصور إلى SES‏ متعددة Flu‏ على محتواها أو للعثور على أنماط محددة 
في مجموعات البيانات الطبية. 

" نمذجة الظواهر الطبيعية: يمكن استخدام النماذج المختلطة الغاوسية لنمذجة الظواهر 
الطبيعية حيث يتم تحديد أن الضوضاء تتبع التوزيعات الغاوسية. 

" تحليل سلوك العملاء: يمكن استخدام النماذج المختلطة الغاوسية لتحليل سلوك العملاء 
في التسويق للتنبؤ بالمشتريات المستقبلية ely‏ على البيانات السابقة. 

" التنبؤ بسعر السهم: هناك مجال آخر تستخدم فيه النماذج المختلطة غاوسي وهو ce sel‏ 
والذي يمكن تطبيقه على السلاسل الزمنية لأسعار الأسهم. يمكن استخدام النماذج 
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المختلطة غاوسى لتحديد نقاط التغيير فى بيانات السلاسل الزمنية وللمساعدة فى العثور 
على معالم "EM‏ أو حركات UE‏ الأخرى التي يصعب اكتشافها بسبب التقليات 
والضوضاء. 
" تحليل بيانات التعبير الجيني: يمكن استخدام نماذج غاوس المختلطة لتحليل بيانات 
التعبير الجيني. على وجه الخصوص . يمكن استخدام النماذج المختلطة غاوسيان لتحديد 
الجينات المعبر عنها بين حالتين ولتحديد الجينات التي قد تلعب دورًا في نمط أو حالة 
مرضية معينة. 
مزايا التجميع الغاوسي المختلط 
" يستخدم نهجًا احتماليًا ويعرض الاحتمالات لكل نقطة من البيانات التي تنتمي إلى 
المجموعات. 
t‏ يمكن التعرف على المجموعات غير الكروية بأقطار مختلفة. 
" انها ليست حساسة للمتغيرات على مستويات مختلفة. 
إذا كنت تبحث عن طريقة فعالة JU‏ على أنماط فى مجموعات البيانات المعقدة أو 
للمساعدة فى نمذجة الظواهر الطبيعية Jio‏ الكوارث الطبيعية أو تحليل سلوک 


العملاء فى التسويق الخاص بك . يمكن أن تكون النماذج المختلطة غاوسيان Juil‏ 


جيداء 


عيوب التجميع الغاوسي المختلط 
m‏ يتطلب مجموعات بيانات كبيرة ومن الصعب تقدير عدد المجموعات. 


" نظرًا لعشوائية الغاوسيين الأوائل » فمن المحتمل أن تتقارب مع نموذج محلي مثالي. 
" إنها حساسة للحالات البعيدة. 


التجميع الهرمى 


في القسم السابق . رأينا كيف يجد التجميع المستند إلى النموذج الأولي مراكز k‏ في مساحة 
السمات ويقوم بتحديثها بشكل متكرر للعثور على مجموعة من العناقيد. التجميع الهرمي له نهج 
مختلف « وكما يوحي اسمها c‏ فإن التسلسل الهرمي يطور مجموعات في شكل أشجار. يُعرف 
هذا الهيكل على شكل شجرة بالرسم الشجري'. بدلاً من الحصول على ناتج "سلس" من 
المجموعات , فإنه يعطينا تجميعًا هرميًا لشجرة من المجموعات. نتيجة لذلك › يوفر التجميع 


1 dendrogram 
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ومن ثم » فإن الميزة الرئيسية للتسلسل الهرمي على النهج القائم على النموذج الأولي هي أننا 
نكتسب فهمًا أكثر Bo‏ لهيكل بياناتنا » وغالبًا ما يكون هذا النهج قادرًا على إعادة بناء التسلسلات 
الهرمية الحقيقية في الطبيعة. على سبيل المثال e‏ تخيل أننا نقوم بتسلسل الجينوم لجميع سلالات 
القطط. يمكننا أن نفترض بسهولة أن جينوم السلالة يشبه جينوم السلالة (السلالات) التي اشتق 
منها أكثر من جينوم السلالة التي لم يشتق منها. إذا طبقنا التجميع الهرمي على هذه البيانات › 
فيمكن تفسير التسلسل الهرمي » الذي يمكن تصوره على شكل شجرة تين للإشارة إلى الأجناس 
المشتقة من الأجناس الأخرى. 
هناك طريقتان لمحاولة تعلم التسلسل الهرمي للبيانات: 
YSIS e‏ نهج تصاعدي تلتقط فيه الخوارزمية جميع نقاط البيانات كمجموعات 
فردية وتدمجها طالما بقيت المجموعة. 
e‏ الانقسامة: يعمل هذا النهج عكس النهج التراكمي وهو من أعلى إلى أسفل. أي أنه 
يبدأ JS‏ العناصر في مجموعة ويقسمها مرة أخرى إلى مجموعات Go‏ يصبح كل 
عنصر في المجموعة الخاصة به. 
الرسم الشجري Dendrogram‏ 
يمكن تمثيل المجموعات الهرمية بواسطة شجرة ثنائية متجذرة. تمثل عقد الشجرة مجموعات 
أو عناقيد. وتمثل العقد الجذرية مجموعة البيانات بأكملها. أيضًاء تمثل العقد النهائية لكل منها 
ملاحظة واحدة (مجموعات مفردة). كل عقدة غير طرفية لها عقدتان ابنتان. 
الرسم الشجري هي مخطط شجرة يستخدم لإظهار ترتيب المجموعات التي تم إنشاؤها 
بواسطة نظام التجميع الهرمي. يمكن تصوير الشجرة مع عقدة الجذرني الأعلى والفروع تنمو 
عموديًا لأسفل (الشكل (أ) 4-8). قد تمتد أيضًا مع عقدة الجذر على اليسار ونمو الفروع 
الأفقية إلى اليمين (الشكل (ب) 4-8). 
يوضح الشكل 5-8 شجرة لمجموعات البيانات fa, b, c, d, e)‏ لاحظ أن العقدة الجذرية تمثل 
مجموعة البيانات بأكملهاء oly‏ العقد النهائية تمثل الملاحظات الفردية. ومع US‏ يتم تقديم 
الرسوم الشجرية بتنسيق أبسط حيث يتم عرض العقد النهائية فقط (أي العقد التي تمثل 
مجموعات مفردة) بشكل صريح. يوضح الشكل 4-8 رسمًا مبسطًا للرسم الشجريني الشكل 
5-8. 


1 Agglomerative 


er d 
Divisive 
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الشكل 4-8. طرق مختلفة لعرض الرسم الشجري‎ 
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الشكل 5-8. الرسم الشجري لمجموعات البيانات (a, b, c, d, e}‏ 
التجميع الهرمى التراكمى 


يبدأ هذا النهج من خلال النظر في كل عينة في مجموعة البيانات كمجموعة أولية. في كل جولة . 
يتم بعد ذلك دمج أقرب مجموعتين في شكل مجموعة جديدة » وتتكرر هذه العملية حتى يصل 
عدد المجموعات إلى قيمة محددة مسبقا. لذلك e‏ يمكن تلخيص خطوات هذه الخوارزمية على 
النحو التالي: 

1. تحديد معيار المسافة (محدد من قبل المستخدم) بين كل مجموعة. 

2. دمج أكثر المجموعات تشابها في مجموعة واحدة. 

3. كرر الخطوتين 1 و2 حتى تكون جميع العينات في نفس المجموعة. 
LASS‏ عمل هذه الخوارزمية موضحة فى الشكل 6-8. DE‏ لوجود 9 أمثلة فى هذا الشكل ٠‏ نبداً 
ب 9 مجموعات. تحسب هذه RTRS‏ معيار المسافة بين كل مجموعة ee,‏ المجموعات 
الأكثر تشابهًا مع بعضها البعض. تستمر هذه العملية حتى تصبح جميع العينات في العنقود 
النهائى. 
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المفتاح هنا هو RES‏ قياس المسافة بين المجموعات. OY GE‏ كل مجموعة عبارة عن 
مجموعة من BUS‏ البيانات c‏ يجب علينا تحديد قياس المسافة للمجموعات. ومن ثم » يتم اتخاذ 
قرار دمج أو عدم دمج مجموعتين عن طريق قياس الاختلاف بين المجموعات. على سبيل 
المثال» بالنظر إلى مجموعتي Ci‏ و (C;‏ يمكننا تحديد المسافات التالية: 
" اقصر مسافة: 
dmin (Ci Cj) = minc, zc; Ast (x, z)‏ 
m‏ اطول مسافة: 
drnax (Civ C;) = MAXxec,zec dist (x, z)‏ 


" متوسط المسافة: 
: 1 
diag Ci G) = mae 3 dist(x, Z)‏ 
ilo;‏ 


xeC; zeCj 
x, 69 Xe وير جو‎ een 
s. ja, © 
o 
e e 5 
o e e e e e 
ug 5 $a 5 eo oœ 
x 
مجموعة‎ 4 
e 
Y, 
مجموعة‎ 1 
X x 


الشكل 6-8. خوارزمية التجميع الهرمي 


يتم تحديد أقصر مسافة بين مجموعتين من خلال أقرب عينتين. يتم تحديد أطول مسافة بواسطة 
عينتين بعيدتين عن المجموعات. يتم تحديد متوسط المسافة بواسطة جميع العيناتني كلتا 


Ol 
N 


3 تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


الخوارزمية أحادية الارتباط" أو ارتباط كامل” أو ارتباط متوسطة e‏ على التوالي. يتم عرض كل من 
هذه dau s JE‏ الشكل 7-8. 


الارتباط المتوسط الارتباط الكامل الارتباط الاحادي 


Xy Xy 


Xy 


X xy X 


الشكل 7-8. طرق الارتباط المختلفة. يأخذ الارتباط المسافة بين أقرب العناصر من مجموعتين كمسافة 
بين تلك المجموعات. يأخذ الارتباط الكامل المسافة بين الحالة الأبعد لمجموعتين كمسافة بين تلك 
المجموعات. يأخذ الارتباط المتوسط متوسط المسافة بين جميع حالات مجموعتين كمسافة بين تلك 
المجموعات. 


مثال. بالنظر إلى مجموعات البيانات b, c, d, e)‏ ,4) ومصفوفة المسافة obal‏ نريد إنشاء الرسم الشجري 


0 b c d e 
a 0 9 3 6 11 
b 9 0 T 5 10 
c 3 7 0 9 2 
d 6 5 9 0 8 
11 10 2 8 0 


يستخدم التجميع الهرمي كامل الارتباط "معادلة أطول مسافة". أي المعادلة JUI‏ لحساب المسافة بين 
dmax (Ci Cj) = MAXxec;,zec dist (x, 2)‏ 
Gey .1‏ لمجموعة البيانات fa, b, c, d, e)‏ فإن المجموعات الأولية تساوي: 


Cy: {a}, {b}, {c}, {d}, {e} 


1 single-linkage 
2 complete-linkage 


3 average-linkage 
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2. يوضح الجدول أدناه المسافات بين المجموعات المختلفة في Cy‏ 


a b c d e 
a 0 9 3 6 11 
b 9 0 7 5 10 
c 3 7 0 9 
d 6 5 9 0 

11 10 2 8 


في الجدول أعلاه: الحد الأدنى للمسافة هو المسافة بين العناقيد (C).‏ و (e)‏ ومن ثم فإننا ندمج و 
£e)5 {c}‏ 


Ga y‏ لذلك. فإن المجموعة الجديدة من العناقيد تساوي: 


C2: {a}, {b}, {d}, (o, e) 
من المجموعات الأخرى:‎ (c, e) نحسب المسافة‎ .3 
dist((c,e), {a}) = max{dist(c, a), dist(e,a)} = max{3,11} = 11 
dist({c, e}, {b}) = max{dist(c, b), dist(e, b)} = max{7,10} = 10 
dist ({c, e}, {d}) = max{dist(c, d), dist(e,d)} = max{9,8} = 9 
Ca لذلك » يوضح الجدول أدناه المسافات بين المجموعات المختلفة في‎ FP 


a b d ce 
0 9 6 11 
b 9 0 5 10 
6 5 0 9 
ce 11 10 9 0 


في الجدول أعلاهء الحد الأدنى للمسافة هو المسافة بين العناقيد (D)‏ و (d)‏ ومن ثم فإننا ندمج (b)‏ 


(d) 5‏ 
a y‏ لذلك. فإن المجموعة الجديدة من العناقيد تساوي: 


C3: {a}, {b, d}, (c, e) 
من المجموعات الأخرى:‎ (b, d) SU AJ نحسب‎ .4 
dist((b, d), {a}) = max{dist(b, a), dist(d, a)) = max{9,6} = 9 
dist ({b, d), (c, e]) = max(dist(b, c), dist(b, e), dist(d, c), dist(d, e)) 
= max{7,10,9,8} = 10 
Ca لذلك » يوضح الجدول أدناه المسافات بين المجموعات المختلفة في‎ Ga, 


a bd ce 
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في الجدول أعلاه الحد الأدنى للمسافة هو المسافة بين العناقيد {A}‏ و (D, d)‏ ومن ثم OB‏ ندمج 
(a)‏ و .(b, d}‏ 
Ga y‏ لذلك. OL‏ المجموعة الجديدة من العناقيد تساوي: 


C4:(a, b, a}, (c, e) 
تبقى مجموعتان فقط. وبالتالي » نقوم بدمجها معا لتشكيل مجموعة واحدة تحتوي على جميع‎ .5 
نقاط البيانات. لدينا:‎ 
dist((a, b, d), (c, e}) 
= max(dist(a, c), dist(a, e), dist(b, c), dist(b, e), dist(d, c), dist(d, e)} 
= max(3,11,7,10,9,8) = 11 


5 | 
3 


^ 
0 » 


a b d c e 


الشكل 8-8 مثال للرسم الشجري للتجميع الهرمي 
التجميع الهرمى التقسيمى 
بخلاف التجميع التراكمي » يبدأ التجميع التقسيمي بكل العناصر الموجودة في الكتلة ويقسمها 


مرة أخرى إلى مجموعات أصغر وأصغر » حتى يصبح كل عنصر في مجموعته الخاصة. يصعب 
إيجاد القسمة المثلى في أي مرحلة من مراحل التجميع. ومن ثم e‏ فإن التجميع التقسيمي يستخدم 
Isa eue‏ (استكشافيًا). 

Gi,‏ لذلك ‏ في كل مرحلة من مراحل التجميع e‏ يتم اختيار المجموعة ذات القطر الأكبر. 
قطر المجموعة هي أكبر مسافة (اختلاف) بين عينتيها. ومن ثم o‏ فإن الخوارزمية تجد العينة في 
هذه المجموعة التي لديها أعلى متوسط مسافة مع العينات الأخرى في المجموعة. هذه الحالة 
الأكثر Gh‏ تخلق مجموعتها المنقسمة الخاصة بها. تتكرر هذه العملية حتى تصبح جميع 
العناصر في المجموعة الخاصة بها. بشكل أساسي » يطبق التجميع الهرمي التقسيمي تجميع k-‏ 
mean‏ (مع 2 - (k‏ في كل مستوى من التسلسل الهرمي لتقسيم كل مجموعة. 


1 heuristic approach 
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التجميع التراكمي بشكل أكثر شيوعًا وهو أقل تكلفة من الناحية الحسابية من خوارزمية „DIANA‏ 
ومع ذلك . لا يمكن إصلاح الأخطاء التي حدثت في بداية التجميع الهرمي في الجزء السفلي. 
وبالتالي » في حين أن التجميع التجميعي قد يكون أفضل في العثور على مجموعات صغيرة » قد 
يكون DIANA‏ أفضل في العثور على مجموعات كبيرة. 
خوارزمية DIANA‏ 
الخطوات الكاملة لخوارزمية DIANA‏ هي كما يلي: 
الخطوة 1. افترض أن المجموعة C,‏ ستقسم إلى مجاميع (عناقيد) Ci‏ و Cj‏ 
الخطوة 3. لكل كائن C,‏ © ×: 

(): في التكرار الأول c‏ احسب متوسط المسافة × لجميع الكائنات الأخرى. 

(ب): بالنسبة للتكرارات المتبقية c‏ قم بإجراء الحساب التالي: 

D, = avg{dist(x, y): yeC;) — avg(dist(x, y): yec;) 


الشكل 9-8. (متوسط الخط المستمر) — (متوسط الخط المتقطع) = Dy‏ 

الخطوة 4. 

(): للتكرار الأول . حرك الكائن بأقصى مسافة متوسطة إلى Cj‏ 

(ب): بالنسبة للتكرارات المتبقية ‏ أوجد كائن X‏ في Ci‏ حيث يكون Dy‏ هو الأكبر. إذا 

كانت 0 > Dy‏ انقل × إلى C;‏ 
الخطوة 5. كرر الخطوتين 3-(ب) و4 (ب) حتى تصبح جميع اختلافات Dy‏ سالبة. ثم يتم 
الخطوة 6. اختر الكتلة الأصغر ذات القطر الأكبر. ثم قسّم هذه المجموعة Gi y‏ للخطوات من 1 
إلى 5. 


الخطوة 7. كرر الخطوة 6 حتى تحتوي كل المجموعات على كائن واحد فقط. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


مثال. IL‏ إلى مجموعات البيانات (a,b, c, d, e}‏ ومصفوفة المسافة أدنام نريد إنشاء رسم شجري مع 
مجموعات هرمية باستخدام خوارزمية :DIANA‏ 


0 b c d e 
a 0 9 3 6 11 
b 9 0 7 5 10 
c 3 7 0 9 
d 6 5 9 0 

11 10 2 8 


Vol .1‏ لدينا: .C, = (a, b, c, d, e)‏ ايضا: 
Cj = dg Ci = 0‏ 
2 التقسيم: 
(): التكرار الأولي. 
احسب متوسط الاختلاف بين الكائنات في C,‏ مع الكائنات الأخرى في C;‏ 
متوسط الاختلاف 0: 
(dista, b) + dist(a,c) + dist(a, d) + dist(a, e))‏ 4 = 
5= 104346411 
ay‏ الطريقة لدينا: 
متوسط الاختلاف 7.75 = b‏ 
متوسط الاختلاف 5.25 = c‏ 
متوسط الاختلاف 7.00 = d‏ 
متوسط الاختلاف 7.75 — e‏ 
del‏ متوسط مسافة هو 7.75 وهناك کائنان متماثلان. نختار واحد منهم كما نريد. نختار 
b‏ وننقله إلى ). لدينا الآن: 
C; = {a,c,d,e},C; = OU (b) = (b)‏ 
(ب): التكرارات المتبقية. 


e‏ التكرار الثاني. 
1 1 
((طبه)4) 1 — Da = 3 (da, c)+d(a,d) + d(a, e))‏ 
n 9 = —2.33‏ = 
و = 
1 1 
De = 3 (4c a) t d(c,d) + d(c, e)) — 1 (ab)‏ 
72.233 *1- 


3 
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1 1 
Da = 3 (da, a) + d(d,c)+d(d, e)) — 1 (aah) 
= = — 7 = 0.67 
3 
De = (ae, c) + d(e,c) + d(e, d)) - x (d(e,)) 
= 2 -7- 0 
3 


Da‏ هو الأكبر و 0 < Dg‏ لذلك » ننقل d‏ الى ,6. لدينا الآن: 
C; = {a,c,e},C; = {b} U (d) = {b, d}‏ 


1 1 
Da = 5 (a, c)+d(a, e)) — ; (4G. b) + d(a, d)) 
5 14 15 — 
sese 
1 1 
D. = 5 («e a) + d(c, e)) = 5 (dc b) + d(c, d)) 
5 5 16 Ee 
277 52099 
1 1 
De = 5 (e c) + d(e, c)) — 5 (deb +d(e, d)) 
5 13 18 6 
2 2 ~ 


الكل سلبى. لذلك نتوقف ونشكل عناقيد 6 Ca‏ 
3. لقسمة Cj‏ و (C;‏ نحسب قطرهما: 


diameter(C;) = max (d(a, c), d(a, e), d (c, e)] 
— max (3,11,2] 
= 11 
diameter (C;) = max {d(b,d)} 

5= 
إنها مجموعة ذات قطر أكبر ,6. لذلك نقسم الآن ,6. بأخذ cC = (a,c,e)‏ 5 3 الحسابات 
المتبقية للقارئ كتمرين. 
التعقيد الزمانى للتجميع الهرمى 
تختلف التقنيات التراكمية والتقسمية اختلافًا كبيرًا في احتياجاتها الحسابية. لنفترض أن لدينا 
نقاط بيانات N‏ . ومن ثم فإن عدد عمليات الدمج المحتملة التي يجب أن تراعيها خوارزمية 
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تراكمية في الخطوة الأولى TEED‏ (يمكن دمج نقطتي البيانات لتشكيل مجموعة يتم تشكيلها 
في الحجم الثاني). يجب إجراء إجمالي عمليات الدمج 1 - N‏ لإنشاء تسلسل هرمي مجموعة 
كامل » ويجب مراعاة إجمالي عمليات الدمج المحتملة OCN?)‏ بشكل ple‏ « يتطلب النهج 
التراكمي OCN?)‏ أو O(N?logN)‏ عند الحاجة » اعتمادًا على ما إذا كان يجب حساب جميع 
المسافات بين جميع المجموعات بعد كل عملية دمج. في المقابل » فإن عدد الأقسام المحتملة 
التي يجب أخذها في الاعتبار في خوارزمية التقسيم وحدها في الخطوة الأولى هو )2( LO‏ لذلك 
فإن خوارزميات التقسيم التي تأخذ في الاعتبار كل قسم ممكن للعثور على القسم الأمثل 
مستعصية على Yost‏ لمجموعات البيانات متوسطة الحجم. 
مزايا و وعيوب التجميع الهرمى 
المزايا 

" ليست هناك حاجة لتحديد عدد المجموعات. 

" يمكن أن يوفر لك الرسم الشجري معلومات مفيدة. 

" من السهل فهمه وتنفيذه. 
معايب 

" إنه حساس للبيانات على مستويات مختلفة. 

" من وجهة نظر حسابية » فإنه يكلف الكثير في مجموعة كبيرة من البيانات. 

" إنه حساس للحالات البعيدة. 

m‏ نادرا ما يعطى الحل الأفضل. 

= ورا اف اير هو اي لون eects‏ يضر غات ار 

الشجري. 


التجميع على أساس الكثافة 


نهج التجميع القائم على الكثافة هو طريقة قادرة على العثور على مجموعات من الشكل 
المطلوب» وكما يوحي اسمها . تستخدم BES‏ العينة لتعيين عضوية المجموعة. تفترض هذه 
الخوارزميات أنه يمكن تحديد dy‏ التجميع بواسطة BUS‏ توزيعات العينة. عادة ما تقوم 
خوارزميات التجميع المعتمدة على الكثافة بتقييم العلاقة بين العينات من منظور الكثافة وتوسيع 
المجموعات عن طريق إضافة عينات ذات صلة. 


1 intractable 
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هناك عدة طرق لقياس e BEII‏ ولكن يمكننا تعريفها على أنها عدد العينات لكل وحدة حجم 
لمساحة الميزة. يمكن القول أن مناطق المساحة الميزات التي تحتوي على العديد من العينات 
pure tuo‏ امغر تتميز بكثافة عالية » في حين أن مناطق المساحة الميزة التي 

تحتوي على عناصر قليلة أو لا ت de qued‏ قار Lii ee‏ ينص حدسنا هنا على 
أن مجموعات الميزات يتم تمثيلها في مجموعة بيانات ذات مناطق عالية الكثافة ومفصولة 
بمناطق منخفضة الكثافة. تحاول خوارزميات التجميع المعتمدة على الكثافة تعلم هذه مناطق 
الميزة عالية الكثافة وتقسيمها إلى مجموعات. تتميز خوارزميات التجميع المعتمدة على الكثافة 
بالعديد من المزايا الجيدة. تتطلب الخوارزمية القائمة على BEKI‏ مسحًا واحدًا فقط لمجموعة 
البيانات الأصلية ويمكنها إدارة الضوضاء. بالإضافة إلى AUS‏ فإن عدد المجموعات غير مطلوب 
في هذه الطريقة » حيث يمكن لخوارزميات التجميع المعتمدة على BEII‏ أن تكتشف تلقائيًا 
عدد المجموعات. 

am‏ عكس العديد من خوارزميات التجميع التقليدية OB GEM‏ خوارزميات التجميع 

ئمة على الكثافة لديها القدرة على التعامل مع الحالات البعيدة. في التجميع المعتمد على 
c‏ ة عينات تنتمي إلى مناطق متفرقة (العزلة) وبالتالي تؤدي إلى الحدس 
الذي تم إنشاؤه بواسطة آليات مختلفة مقارنة بالعينات الأخرى. 

تعتمد طريقة التجميع الأكثر شهرة والأكثر شيوعًا على كثافة e DBSCAN‏ الموضحة في هذا 
القسم. 


DBSCAN خوارزمية‎ 


DBSCAN‏ هي خوارزمية تجميع تعتمد على الكثافة والتي تحدد كثافة توزيعات العينة مع 
زوج من معاملات "الجوار" It‏ ,€- لفهم خوارزمية DBSCAN‏ « يجب Yul‏ فهم هذين المعاملين. 
تبدأ الخوارزمية بتحديد عينة من البيانات والبحث عن عناصر أخرى داخل دائرة نصف قطرها 
البحث. هذا معامل لنصف قطر إبسيلون -E‏ يحدد المعامل U‏ الحد الأدنى لعدد BEJI‏ (العناصر) 
التي يجب أن تمتلكها المجموعة لإنشاء مجموعة. لذلك e‏ يعد المعامل ‏ عددًا صحيحًا. إذا 
كانت JE‏ معينة بها على الأقل WOVE‏ داخل نصف قطر إبسيلون . OU‏ هذه الحالة تعتبر نقطة 
مركزية. 


G3,‏ لمجموعة البيانات D = ]261, X2, ay Xm}‏ نحدد المفاهيم التالية: 


e‏ ع-الجوار: ع-الجوار «JI Leal. peD‏ ب Ne(p)‏ . يعرف على النحو التالي: 
l _ Ne(p) = (aeD|dist(p,q) = £}‏ 

e‏ خصائص نقاط النواة: يتم تصنيف كل عينة في D‏ كنقطة محورية أو نقطة حدية أو نقطة 

ضوضاء » اعتمادًا على الجوار. تعتبر العينة p‏ نقطة مركزية إذا كانت تحتوي على أكثر من 

عينات /م في جوارها. isl‏ كانت p‏ 5 تحتوي على أقل من عینات p‏ داخل جوارها ‏ ولم يكن 
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أي من جيرانها عينات مركزية » فسيتم تصنيف «على أنها ضوضاء أو عينة بعيدة. خلاف 
ذلك « تسمى p‏ عينة حدودية. 
e‏ قابلية الوصول مباشرة إلى الكثافة: يمكن الوصول إلى عينة GED‏ مباشرة من العينة DED‏ 
ويُشار إليها ب ا م c‏ إذا وفقط إذاء بر < |N: (p)|‏ و -qeN«Qp)‏ 
e‏ متصل BEI,‏ العيّنتان q‏ و p‏ متصلتان BEIL‏ ويشار إليهما ب p rd q‏ إذا كان هناك 
تسلسل Xm‏ , ... ,2× ,× للعينات بحيث: 
pux,accexQ4e0qsVyN«Q)znu‏ 
« المجموعة: يتم تعريف الكتلة على أنها أقصى مجموعة من العينات المرتبطة بالكثافة 
وتتكون من عينات مركزية وعينات حدودية. في DBSCAN‏ « يمكن أن تنتمي العينة 
الحدودية إلى عدة مجموعات حسب ترتيب العينات. لا تنتمي عينة الضوضاء إلى أي 
مجموعة وتسمى بعيدة. تسمى المجموعة الفرعية ‏ € € الا (العنقود) إذاكان 
لديها الشرطان التاليان: 
1. الحد الاقصى: q‏ × مح Vp €C:p, Va €C:p\C:‏ 
2. المحاذاة: Vong € C:p M q‏ 


يستخدم X3 DBSCAN‏ بيانات تسمى قائمة البذور (S.‏ والتي تتضمن مجموعة من عينات 
الحبوب لتوسيع المجموعة. لبناء مجموعة . يختار DBSCAN‏ بشكل عشوائي عينة غير معالجة 
ويضعها في قائمة S‏ الفارغة كتهيئة. ثم يقوم باستخراج p Ese‏ من S‏ بشكل مستمر والاستعلام 
عن GUI‏ في p‏ للعثور على عينات يمكن الوصول إليها مباشرة من 7 e‏ وإذا لم تتم معالجتها 
بعد » فيضعها في 5. عندما تكون قائمة البذور S‏ فارغة » يكتمل التجميع ويبدأ التجميع الجديد. 
تتكرر عملية التوسع بأكملها حتى يتم تصنيف جميع العينات. 

خذ مجموعة بيانات البطيخ في الجدول 1-8 كمثال لتوفير رؤية أكثر دقة. افترض أن 
معاملات الجوار هى 5 = U‏ ,0.11 = ع. نبدأ بإيجاد الجوار لكل عينة حتى نتمكن من تحديد 
مجموعة العينات الأساسية (المركزية): 

Q = (Xs, Xs, X6, Xg, Xo, X13, X14) X18, X19, X24) X25, X28, X29) 

بعد ذلك » نختار عينة أساسية بشكل عشوائي كبذرة ونوسعها لتشمل جميع العينات المتوفرة 
BES‏ هذه العينات تشكل مجموعة. بدون فقدان المجموع . افترض أن العينة المركزية Xg‏ قد 
تم اختيارها كبذرة » ومن ثم يتم إنتاج المجموعة الأولى على النحو التالي: 


Cy = (xe, X7, Xg, X10, X12, X48) X19, X20, X23) 


يقوم DBSCAN‏ بعد ذلك بإزالة كافة العينات الأصلية في C,‏ من © : 


Q = OAC, = (xs, X5, X9, X13, X14, X24) X25, X28} 
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يتم بعد ذلك إنتاج المجموعة التالية عن طريق الاختيار العشوائي لعينة أساسية أخرى من N‏ 
المحدثة كبذور. تتكرر هذه العملية حتى لا يكون هناك عنصر آخر في N‏ يوضح الشكل 11-8 
المجموعات التي تم إنتاجها في دورات مختلفة. بالإضافة إلى «C,‏ تم إنشاء ثلاث مجموعات 
أخرى: 


C2 = (xa, X4, Xs, X9, X13, X445 X16» X17, X21) 
C3 = {x1, X2, X22, X26, X29] 


C4 = {X24, X25, X27, X28, X30]- 


الشكل 10-8 مفاهيم q )1( .DBSCAN‏ يمكن الوصول إليها مباشرة من D‏ . (ب) 7 و 0 مرتبطان 
بالكثافة. (ج) المثال © (أحمر) عينة مركزية (أساسية) « D‏ (أخضر) عينة حدودية » © (أسود) عينة 
ضوضاء. (د) قائمة الحبوب 5 لتوسيع المجموعة. تقوم Wl DBSCAN‏ ببناء مجموعة Cy‏ يتم 
استخراج العينة D‏ من S‏ وفحصها. لا تتم معالجة العينات © و D‏ الموجودة في المنطقة المجاورة DJ‏ 
وبالتالي فهي موجودة في S‏ 
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05 06 07 08 09 Of 02 03 04 05 06 07 08 09 
density density 


(ب) تكوين المجموعة Ca‏ )1( تكوين المجموعة C;‏ 


9.1 0.2 0.3 0.4 


01 02 03 04 05 06 07 08 09 01 02 03 04 05 4 
density density 


)2( تكوين المجموعة C,‏ (ج) تكوين المجموعة C3‏ 

الشكل 11-8 نتائج الخوارزمية DBSCAN‏ مع 5 = A‏ و 0.11 = ع. تمثل 5s JE‏ "ه" "0 "a"‏ 
عينات مركزية (أساسية) وعينات غير مركزية وعينات صاخبة؛ على التوالي. تشير الخطوط المتقطعة إلى 
المجموعات. 
مزايا DBSCAN‏ 

e‏ لديها مفهوم يسمى الضوضاء ‏ لذلك فهو أقوى في الحالات البعيدة. 

e‏ ليست هناك حاجة لتحديد عدد المجموعات مقدماً. 
عيوب DBSCAN‏ 

e‏ لا يمكن تجميع مجموعات البيانات ذات الاختلافات الكبيرة في الكثافة جيداً. 

e‏ ليس cs‏ تمامًا. لذلك e‏ يمكن أن تكون النقاط الحدودية التي يمكن الوصول إليها من 

أكثر من مجموعة واحدة جزءًا من كل مجموعة. 

التعقيد الزماني والمكاني لخوارزمية DBSCAN‏ 
التعقيد الزماني لخوارزمية DBSCAN‏ يساوي x m)‏ الوقت اللازم للعثور على نقاط في -E‏ 
الجوار) 0 عندما يكون M‏ هو عدد النقاط. في أسوأ الحالات c‏ يكون هذا التعقيد هو (m?)‏ 0. 
ومع ذلك . في المساحات منخفضة الأبعاد (خاصة المساحات LSS‏ الأبعاد) . تسمح هياكل 
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البيانات مثل أشجار kd‏ بالاسترداد الفعال لجميع النقاط على مسافة معينة من نقطة معينة › 
ويمكن تقليل التعقيد الزمني إلى O(mlogm)‏ في المتوسط. المساحة المطلوبة ل 
.DBSCAN‏ حتى بالنسبة للبيانات عالية الأبعاد . هي VEY. O(m)‏ يلزم تخزين سوى كمية 
صغيرة من البيانات لكل نقطة c‏ أي تسمية المجموعة وتحديد كل نقطة كمركز أو حد أو نقطة 
الضوضاء. من المهم أن نلاحظ أن التعقيد الزمني لمعايير التشابه بين الكائنات لم يتم النظر فيه 
هنا. بافتراض أن معيار تشابه الكائن له تعقيد زمني «P‏ فإن التعقيد النهائي ل DBSCAN‏ هو 
(2«دلظا) 0 أو .O(*mlogm)‏ 


التجميع مع بايتون 


تجميع k-means‏ 
استيراد المكتبات 


In H]: import matplotlib.pyplot as plt 
import numpy as np 
from sklearn.cluster import KMeans 


تحضير البيانات 
الخطوة التالية هي تحضير البيانات التي نريد تجميعها. لنقم بإنشاء مصفوفة numpy‏ مكونة من 


In H: X= np.array([[1,3], 
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)]]30,45[ 
التمثيل poll‏ 3( للبيانات 
لنرسم هذه النقاط ونرى ما إذا كان بإمكاننا رؤية مجموعة. للقيام بذلك e‏ قم بتشغيل التعليمات 
البرمجية التالية: 


In [É]:  plt.scatter(X[:,0],X[:,1], label='True Position', marker = 's') 
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كما هو موضح في الشكل أعلاه e‏ إذا أردنا تكوين مجموعتين من BUS‏ البيانات » فسنقوم على 
الأرجح بإنشاء مجموعة واحدة من ثماني نقاط في أعلى اليمين ومجموعة واحدة من اثنتي عشرة 
نقطة فى أسفل اليسار. دعونا نرى ما إذا كانت خوارزمية التجميع K-mean‏ الخاصة بنا تفعل 
إنشاء المجموعات 
لتشغيل خوارزمية K-mean eJ‏ مع مجموعتين c‏ ما عليك سوى تشغيل الكود التالي: 

In M: kmeans = KMeans(n_clusters=2) 

kmeans.fit(X) 
وتمرير الرقم 2 كقيمة معامل لعدد المجموعات‎ KMeans فى السطر الأول « تقوم بإنشاء كائن‎ 
وإرسال البيانات‎ kmeans على‎ fit بعد ذلك « تحتاج ببساطة إلى استدعاء التابع‎ . clusters 
GU التى تريد تجميعها. فى هذا المثال » توجد البيانات فى المصفوفة × التى أنشأناها‎ 
الآن دعونا نرى ما هي قيم المركز التي أنشأتها الخوارزمية للمجموعات النهائية.‎ 
In DL  print(kmeans.cluster centers ) 


Out [7]: [[18.08333333 14.66666667] 
[73.125 83. ]l 
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ناتج المصفوفة ثنائية الأبعاد هو 2 x‏ 2. هنا يحتوي الصف الأول على قيم إحداثيات المركز 
الأول (14.16666667 . 18.08333333) ويحتوي الصف الثاني على قيم إحداثيات المركز 
الآخر )83.0 . 73.125). 
لمشاهدة تسميات نقاط البيانات c‏ قم بتشغيل التعليمات البرمجية التالية: 
In DEL  print(kmeans.labels )‏ 
Out (7; [00000111111001100000]‏ 
يتوافق إخراج مصفوفة أحادية البعد تتكون من 20 عنصرًا مع المجموعات المخصصة لنقاط 
البيانات العشرين لدينا. يتم استخدام 0 و 1 هنا فقط لتمثيل معرفات الكتلة وليس لها أهمية 
رياضية. إذا كانت هناك ثلاث مجموعات » فسيتم الإشارة إلى المجموعة الثالثة بالرقم 2. 
التمثيل pall‏ 3 للبيانات 
دعنا نعيد نمثل نقاط البيانات على الرسم البياني ونوضح LAS‏ تجميع البيانات. هذه المرة نرسم 
البيانات Ge‏ إلى جنب مع التسمية المخصصة حتى نتمكن من التمييز بين المجموعات. قم 
بتشغيل التعليمات البرمجية التالية: 
In [2]:  plt.scatter(X[:,0],X[:,1], c=kmeans.labels_, cmap='rainbow',marker = 's')‏ 
هنا نرسم العمود الأول من المصفوفة X‏ أمام العمود الثاني» وفي هذه الحالة نرسل Ua‏ 
kmeans.labels‏ كقيمة للمعامل c‏ الذي يتوافق مع العلامات. يتم استخدام المعامل 
'cmap- rainbow‏ لتحديد نوع اللون لنقاط البيانات المختلفة ويتم إرسال المعامل = marker‏ 
's'‏ لتمييز النقاط. الإخراج على النحو التالى: 
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كما هو متوقع وكما هو موضح في الشكل أعلاه e‏ تم تجميع النقاط الاثنتي عشرة الموجودة 
فى أسفل اليسار es‏ والنقاط المتبقية فى أعلى اليمين مجمعة las‏ فى مجموعة. 

الآن دعنا نرسم النقاط على طول الإحداثيات المركزية لكل مجموعة لنرى كيف يؤثر موضع 
المركز على التجميع. قم بتشغيل التعليمات البرمجية التالية لرسم المخطط: 

In [2]  plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap='rainbow',marker = 's') 


plt.scatter(kmeans.cluster centers [:,0] ,kmeans.cluster_centers_[:,1], 
color-'black',marker = '+') 
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سترى ذلك مرة أخرى » يتم وضع النقاط القريبة بجانب بعضها البعض. 
كتمرين e‏ يمكن تجميع هذه البيانات مع خوارزميات أخرى باستخدام 425 .scikit- Learn‏ 
يمكنك استخدام مقتطفات التعليمات البرمجية التالية. يمكنك Cal‏ تغيير المعاملات المختلفة 
لكل خوارزمية تجميع وعرض النتائج. 
التجميع الهري 
from sklearn.cluster import AgglomerativeClustering‏ 
cluster = AgglomerativeClustering(n_clusters=2,‏ 


affinity-'euclidean', linkage='single') 
cluster.fit_predict(X) 


In [4]: 


DBSCAN التجميع‎ 


In [4: from sklearn.cluster import DBSCAN 
clustering - DBSCAN(eps-3, min samples-2).fit(X) 
clustering. labels_ 
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التجميع الغاوسي المختلط 


In [4: from sklearn import mixture 
model = mixture.GaussianMixture(n components-2, 
covariance type-'full).fit(X) 
labels = model.predict(X) 


متى نستخدم التجميع؟ 


بغض النظر عن نوع البحث الذي تقوم به أو ما يقوم به نموذج التعلم الآلي الخاص بك . سوف 
تحتاج إلى تقنيات التجميع في نقطة واحدة على الخط. لأنه في كثير من الحالات (في البداية 
على الأقل) c‏ فإنك تعمل مع مجموعات البيانات التي تكون في الغالب غير منظمة وغير مصنفة» 
ومن الضروري تجميع البيانات وإعدادها مع بعضها البعض. والأهم من ذلك » أن التجميع هو 
طريقة سهلة لإجراء العديد من التحليلات السطحية التي يمكن أن تمنحك bey‏ سريعًا في 
مجموعة متنوعة من المجالات. على سبيل المثال » يمكن لشركات التأمين تحديد عوامل الخطر 
والمواقع بسرعة وإنشاء ملف تعريف مخاطر أولي لمقدمي الطلبات. 

في علم البيانات e‏ يمكننا استخدام تحليل المجاميع (العناقيد) لاكتساب رؤى قيمة من بياناتنا 
من خلال رؤية المجموعات التي تقع فيها نقاط البيانات عند تطبيق خوارزمية التجميع. بمعنى 
آخر » يمكن أن يحدث التجميع وتحليلات البيانات ثورة في عملية إدارة البيانات الخاصة بك. 
نظرًا OY‏ التجميع يتم بواسطة خوارزمية . فمن المحتمل أنك ستكون Gob‏ على اكتشاف 
الارتباطات غير المعروفة ols‏ في البيانات التي يمكن أن تساعدك في مواجهة تحدي الأعمال 
من منظور جديد. 

عندما يتعلق الأمر بالتنقيب في البيانات أو استخراجها . يمكنك استخدام تجميع البيانات 
كأداة قائمة بذاتها لاكتساب رؤى حول توزيع البيانات أو لتعزيز المجموعات المحددة التي ترغب 
في مزيد من التحليل. يمكنك Cal‏ استخدامه في ذكاء الأعمال لتنظيم العملاء الجدد وتنظيم 
المشاريع المعلقة والعديد من التطبيقات الأخرى. يساعد التجميع في جعل استخراج البيانات 
أكثر كفاءة عن طريق تقليل عدد عمليات المسح المطلوبة للبحث عن البيانات. 

بالنسبة إلى كل العمل الرائع الذي يمكن أن يقوم به تحليل المجموعة لمشروعك ومؤسستك 
هناك العديد من الأشياء التي تجعله غير مرغوب فيه عندما تبحث عن رؤى متعمقة. بعبارة أخرى. 
يمثل التجميع بحد ذاته تحديات كبيرة ولا يجعله Ges‏ لمهام التعلم SY!‏ والتحليل الأكثر 
تعقيدا. تكمن المشكلة الأكبر في معظم طرق التجميع في أنه على الرغم من تقسيم بياناتك مبدتيًا 
إلى مجموعات «Leb‏ فإن الاستراتيجيات المستخدمة في بعض الأحيان لا ترتبط بالضرورة 
بالبيانات نفسها » ولكن بموضعها بالنسبة إلى نقاط أخرى. على سبيل المثال » يمكن أن يكون 
لتجميع K-means‏ نتائج مختلفة جد اعتمادًا على عدد المجموعات التي تحددها « وعادة لا 


تعمل بشكا جيد عند | ستخدامها مع مجموعات غير كروية. بالإضافة إلى ذلك » ob‏ حقيقة 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


تعديل مركز الجرائم بشكل عشواتي تؤثر Cal‏ على النتائج ويمكن أن تؤدي إلى مشاكل. يمكن 
أن تحل الخوارزميات الأخرى هذه المشكلة » ولكن ليس بدون تكلفة. 

ميل التجميع الهرمي إلى إنتاج نتائج أكثر دقة » ولكنها تتطلب قوة حسابية كبيرة وليست مثالية 
عند العمل مع مجموعات البيانات الأكبر. هذه الطريقة حساسة Cad‏ للقيم البعيدة ونتيجة لذلك 
يمكن أن تنشئ مجموعات غير صحيحة. ومع ذلك › هذا لا يعني أنه لا يجب عليك استخدام 
التجميع laa‏ « ولكن يجب عليك استخدامه أينما ومتى يمنحك أكبر قدر من التأثير والبصيرة. 
أيضًا » هناك العديد من المواقف التي لا يمنحك فيها التجميع نقطة بداية جيدة فحسب » بل 
يوضح أيضًا الميزات المهمة لبياناتك التي يمكن تحسينها عن طريق التحليل المتعمق. هذه 
ليست سوى بعض البرامج التجريبية لتحديد الأهداف التي يمكنك استخدامها: 

٠‏ عندما تبدأ بمجموعة بيانات كبيرة غير منظمة: مثل أدوات التعلم الأخرى غير الخاضعة 
للإشراف . يمكن للتجميع التقاط مجموعات بيانات كبيرة وتنظيمها سريعًا في عناصر 
أكثر قابلية للاستخدام بدون تدريب. ميزة هذا هو أنه إذا كنت لا تبحث عن تحليل 
شامل » يمكن أن يوفر لك التجميع إجابات سريعة حول بياناتك. 

e‏ عندما لا تعرف عدد أو se‏ الفئات التي تقع فيها بياناتك: حتى إذا بدأت بمجموعة 
بيانات أكثر تنظيماً > فقد لا تحتوي بعد على الفئة التي تريدها. يعد التجميع خطوة 
أولى رائعة في إعداد بياناتك c‏ حيث يبدأ في الإجابة عن الأسئلة الرئيسية حول مجموعة 
البيانات الخاصة بف dici an dio‏ قد تجد أن ماكنت تعتقد أنه مجموعتان 
فرعيتان رئيسيتان هو في الواقع أكثر من ذلك. 

o‏ عند تقسيم البيانات يدويًا والتعليق عليها يستغرق الكثير من الوقت والمال: بالنسبة 
لمجموعة بيانات أصغر » يكون التعليق التوضيحي والتنظيم يدويًا ممكنًا . إن لم يكن 
مثاليًا. ومع ذلك . مع بدء زيادة بياناتك e‏ يصبح من الصعب بشكل متزايد إضافة 
تعليقات توضيحية إليها. يمكن أن يؤدي التجميع (اعتمادًا على الخوارزمية التي 
تستخدمها) إلى تقليل وقت التعليقات التوضيحية. لأنه أقل اهتمامًا بنتائج محددة وأكثر 
اهتمامًا بالتصنيف الذاتي. 
« عند البحث عن الحالات الشاذة في بياناتك: الشيء المثير للاهتمام هو أن أحد 

التطبيقات الأكثر قيمة للتجميع هو أنه نظرًا OY‏ الخوارزميات حساسة جد للنقاط 
البعيدة » يمكن أن تعمل كمعرف للشذوذ في البيانات. يمكن أن يساعدك فهم البيانات 
غير الطبيعية في جعل بياناتك الحالية أكثر y Gals‏ وتحقيق نتائج أكثر دقة. 


ستحصل على أقصى استفادة من التجميع عندما تستخدم التجميع ليس كنموذج قائم 


بذاته . ولكن «jad‏ من aa Dl paul‏ أوسع لاكتشاف البيانات. 
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في التعلم JY‏ يشير "البعد" إلى عدد السمات (متغيرات الإدخال)ني مجموعة البيانات. عندما 
يكون عدد السمات أكبر من عدد العيناتفي مجموعة البيانات الخاصة بك» يجب زيادة عدد 
العينات للنموذج لتحقيق أفضل أداء. بمعنى آخر. مع زيادة عدد الميزات» يزداد عدد العينات 
Call‏ لأنه كلما زاد عدد الميزات التي لديناء سنحتاج إلى المزيد من العينات حتى يتم تمثيل 
جميع مجموعات قيم الميزات بشكل جيدفي مجموعة البيانات. بالإضافة إلى SUS‏ كلما زاد عدد 
الميزات. زادت إمكانية التخصيص. يعتمد نموذج التعلم A!‏ الذي يتم تدريبه على عدد كبير 
من الميزات بشكل متزايد على البيانات التي يتم تدريبهاء مما يؤدي بدوره إلى الضبط الزائدء مما 
يؤدي إلى ضعف الأداء على البيانات غير المرئية. يعد تجنب الضبط الزائد هو الدافع الرئيسي 
لتقليل الأبعاد؟. كلما قل عدد الميزات التي تتمتع بها بيانات التدريب الخاصة بناء كلما كانت 
افتراضات نموذجنا أقل وأبسط. لكن هذا ليس كل شيء, وهناك فوائد أكثر بكثير لتقليل الابعاد. 
ومع AS‏ عندما نقوم بتقليل ابعاد مجموعة البيانات فإننا نفقد نسبة مئوية من مرونة البيانات 
الأصلية. ومع AUS‏ لا GLE‏ بشأن فقدان هذه النسبة المثوية من المرونةفي البيانات الأصلية. حيث 
أن تقليل الابعاد له فوائد عديدة. 


البيانات هى أساس ato jjlgà sí‏ للتعلم «JU‏ وبدونها لا يمكن أن يحدث ple‏ البيانات. فى بعض 
الأحيان. قد 59133 مجموعة البيانات هذه على العديد من الميزات. بعضها غير مطلوب حتى. Jio‏ 


هذه المعلومات الإضافية تعقد النمذجة. بالإضافة إلى ذلك. يصعب تفسير البيانات وفهمها من 
خلال 100 لحجمها الكبير. هذا ga‏ المكان الذى يتم فيه تقليل الابعاد. 

تعني الأبعاد الأقلفي البيانات وقت تدريب أقل وموارد حسابية أقل. تجعل مشاكل التعلم الآلي 
التي تنطوي على العديد من الميزات التعلم GLU Éko‏ مجموعة البيانات الكبيرة» من المحتمل 
أن تكون معظم نقاط البيانات متباعدة. HUY‏ لا يمكن تدريب الخوارزميات بفعالية وكفاءة على 
البيانات عالية الأبعاد (مشكلة لعنة الأبعاد). 

تقليل الأبعاد يمنع مشكلة الضبط الزائد. عندما يكون هناك العديد من الميزاتفي UL‏ 
تصبح النماذج أكثر تعقيدًا وتميل إلى الضبط الزائدني بيانات التدريب. 

تقليل الأبعاد مفيدة جد للتمثيل المرئي للبيانات. عندما نقوم بتقليل أبعاد البيانات عالية 
الأبعاد إلى مكونين أو ثلاث مكونات» يمكن بسهولة رسم البياناتفي مخطط ثنائي الأبعاد أو 
qu»‏ الابعاد. 


! Dimensional reduction 


NEN‏ تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والآدوات 


يزيل تقليل أبعاد dels pall‏ البيانات. من خلال الحفاظ على أهم الميزات والقضاء على 
الميزات الإضافيةء فإنه يلغي تقليل أبعاد الضوضاءفي البيانات. نتيجة UY‏ فإنه يحسن Bo‏ 
النموذج. 


يشيرتقليل الابعاد إلى عد د السمات فى مجموعه البيانات» مع الاحتفاظ بالتغييرات على مجموعة 


البيانات الأصلية قد ر الإمكان . تعمل عملي الأبعاد بشكل أساسى على تحويل البيانات من مساحة Gl Go‏ 


الأبعاد إلى مساحة bjo‏ ذات أبعاد أصغر. فى الوقت cawis‏ من المهم ألا تضيع الميزات المفيد د للبيانات أثناء 


التحويل . 


بشكل عام» هناك طريقتان لتقليل الأبعاد: اختيار الميزة واستخراج الميزة (التحويل). يحاول 
نهج اختيار الميزة تحديد مجموعة فرعية من الميزات المهمة وإزالة الميزات غير المهمة لتقليل 
تعقيد النموذج وزيادة الكفاءة الحسابية للنموذج وتقليل خطأ التعميم بسبب توليد الضوضاء.في 
«plea!‏ يحاول استخراج الميزةء المعروف أيضًا باسم تحويل الميزة» إنشاء فضاء فرعي جديد 
للميزة. الفكرة الرئيسية وراء الاستخراج هي ضغط البيانات بهدف الحفاظ على المزيد من 
المعلومات ذات الصلة. 


اختيار الميزة 


اختيار الميزةً هو adac‏ التحديد التلقائى أو اليد ا Uol lig doslo SUI lall yo‏ 


لاستخد امهافى بناء النموذج . 


استخراج الميزات هو عمليهٌ تقليل عد د الميزات فى ga o‏ عه البيانات عن طريق إنشاء ميزات جديد ة. 
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اختيار الميزة مقابل استخراج الميزة 

تقلل كلتا الطريقتين من عدد الأبعاد. ولكن بطرق مختلفة. من المهم جد التمييز بين هذين 
النوعين من الطرق. الغرض من استخراج الميزات هو تقليل عدد الميزاتفي مجموعة البيانات 
عن طريق إنشاء ميزات جديدة من الميزات الموجودة (ثم تجاهل الميزات الأصلية). يجب أن 
تكون مجموعة الميزات الجديدة المصغرة هذه قادرة على تلخيص معظم المعلومات الموجودة 
في مجموعة الميزات الرئيسية. بهذه الطريقة» يمكن إنشاء نسخة موجزة من الميزات الرئيسية من 
ud‏ الأصلية. على عكس هدف اختيار الميزات» فإنه يحتفظ pal‏ الميزاتفي مجموعة 
البيانات ويزيل الميزات الإضافية. يتمثل الاختلاف بين اختيار الميزة واستخراج الميزةفي أن 
الغرض من اختيار الميزة هو ترتيب أهمية الميزاتفي مجموعة البيانات واستبعاد الميزات الأقل 
أهمية. بمعنى آخر. لا يتم إنشاء ميزات جديدة بهذه الطريقة.في المقابلء يؤدي استخدام استخراج 
الميزات إلى إنشاء مجموعة جديدة GLS‏ من الميزات. يمكن تصنيف نهج استخراج الميزات 
إلى طرق خطية وأساليب غير خطية. تُعرف الأساليب غير الخطية أيضًا باسم التعلم المتنوع. 


تقليل الأبعاد هو عملية تقليل aac‏ الأبعاد فى البيانات Lol‏ عن طريق إزالة الميزات الأقل 


فائدة | ) أو تحويل البيانات إلى أبعاد أقل ( 1 


تقنيات اختيار الميزة 


يمكن اختيار الميزة يدويًا أو باستخدام تقنيات مشتركة (آلية) تم تطويرها لهذا الغرض. على 
سبيل المثال» افترض أنك تحاول بناء نموذج يتنبأ بوزن الأشخاص وقد جمع مجموعة كبيرة من 
البيانات التى تصف كل شخص. إذاكان لديك عمود يصف لون ملابس كل شخص» فهل يساعد 
توقع وزنه 85 أعتقد أننا يمكن أن نتفق بأمان على أن الأمر لن يكون كذلك. هذه ميزة يمكننا 
وضعها Gle‏ دون أي مشاكل. عندما تكون بعض الميزات ذات صلة أو غير مرتبطةء يمكننا 
تحديد هذه الميزات يدويًا وتقليل الأبعاد. وعندما لا يتم تحديد هذه الميزات بوضوح» هناك 
العديد من التقنيات والأدوات التي يمكننا استخدامها للمساعدةفي تحديد الميزات. 
يمكن أن تكون تقنيات اختيار الميزات غير خاضعة للإشراف أو خاضعة للإشراف (مثل 

الخوارزميات الجينية). يمكن Cal‏ الجمع بين عدة طرق إذا لزم الأمر. يمكن وصف عملية اختيار 
الميزةفي خطوتين: 

٠‏ يجمع بين أسلوب البحث لاقتراح مجموعة ميزة فرعية جديدة. 

© معيار تقييم يقوم بتعيين درجة لمجموعات فرعية مختلفة. 
الخوارزمية الجينية 
من وجهة نظر رياضيةء تتم صياغة اختيار الميزة كمشكلة تحسين مركبة. الدالة الهدف هي دالة 
التعميم للنموذج التنبتي» والتي يتم تمثيلها ببيان الخطأفي الميزات المحددة لمجموعة البيانات. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


يقوم التحديد الشامل للسمات بتقييم "2 مجموعات مختلفة. حيث N‏ هو عدد السمات. 
تتطلب هذه العملية الكثير من العمل الحسابي وإذا كان عدد الميزات DaS‏ فإنها تصبح غير 
عملية. بمعنى RT‏ اختيار الميزة هو مشكلة «UU NP - Hard‏ نحتاج إلى طرق ذكية تمكن 
من اختيار الميزاتفي الممارسة. تعد الخوارزمية الجينية من أكثر الخوارزميات تقدمًا لاختيار 
الميزات. 

الخوارزمية الجينية هي طريقة عشوائية لتحسين الدالة Fy‏ على الميكانيكا الجينية الطبيعية 
والتطور البيولوجي.في الطبيعة» تتطور جينات الكائنات الحية عبر الأجيال المتعاقبة لتتكيف بشكل 
pal‏ عم d‏ الخوارزمية الجينية هي طريقة nr‏ استكشافية مستوحاة من إنجراءات التطور 
الطبيعي. تعمل الخوارزميات الجينية على مجموعة من الأفراد لإنتاج تقديرات تقريبية hail‏ 
وأفضل. تخلق هذه الخوارزمية مجموعة سكانية جديدةفي كل جيل عن طريق اختيار الأفراد. ثم 
يتم الجمع بين هؤلاء الأفراد باستخدام عوامل مستعارة من علم الوراثة الطبيعية. يمكن Caj‏ 
تحور الأطفال. تؤدي هذه العملية إلى تطور مجتمعات أكثر ملاءمة لبيئتها من الأشخاص الذين 
أنشأوها. 

في التعلم الآليء للخوارزميات الجينية تطبيقان رئيسيان. الأول هو التحسين» مثل إيجاد أفضل 
وزن للشبكة العصبية. الحالة الثانية هي تحديد الميزة يتم الاشراف عليها. في هذه الحالةء تمثل 
"الجينات" الميزات ioo JE‏ ويمثل "الكائن الحي' مجموعة من الميزات. يتم تصنيف كل كائن 
حىفي "السكان" على أساس درجة الملائمة'. تعيش الكائنات الحية الأكثر ملاءمة وتتكاثر حتى 
تتقارب الأجيال القليلة القادمة من السكان لحل واحد. 


الميزة: 

e‏ يمكن للخوارزميات الجينية تحديد السمات بفعالية من مجموعات بيانات كبيرة جد . حيث 
يكون البحث الشامل مستحيلًا. من المحتمل أن تكون الخوارزمية الجينية هي الخيار الأفضل 
بالنسبة لك عندما تحتاج إلى معالجة البيانات Rata‏ لا سحتو ى على ils $us dust‏ 
(على سبيل المثال .كي أقرب جار) وعندما تحتاج إلى الاحتفاظ بالسمات الرئيسية (على 
سبيل المثال » لا سمح باستخراج السمات). 


السلبية: 


e‏ تضيف الخوارزميات الجينية مستوى أعلى من التعقيد إلى التنفيذ الخاص بك Ule y‏ لا تستحق 
ذلك. إذا كان ذلك ممكنًا . فإن استخدام PCA‏ أو الاستخدام المباشر لخوارزمية مع تحديد 
الميزات الداخلية يكون أسرع وأسهل. 


1 fitness 
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طرق التغطية1 
مختلفة وتقييمها ومقارنتها مع المركبات الأخرى. تقوم هذه الطريقة بتعليم الخوارزمية بشكل 
متكرر باستخدام مجموعة الميزات الفرعية. استنادًا إلى إخراج النموذجء تتم إضافة الميزات أو 
طرحهاء ومع هذه المجموعة من الميزات» يتم تدريب النموذج مرة أخرى. بعض تقنيات طريقة 
التغطية هى: 
« الاختيار المقبل: اختيار العميل المتوقع هو عملية تكرارية تبدأ بمجموعة فارغة من 
السمات. بعد كل تكرار » يضيف ميزة ويقيم الأداء لمعرفة ما إذا كان يحسن الأداء. 
تستمر هذه العملية حتى لا تؤدي إضافة ميزة جديدة إلى تحسين أداء النموذج. 
e‏ الحذف الرجعى: إزالة الخلفية هى أيضًا طريقة متكررة . ولكنها عكس الاختيار المقبل. 
تبدأ هذه التقنية العملية من خلال النظر في جميع الميزات وإزالة الميزة الأقل أهمية. 
تستمر عملية الحذف هذه حتى لا يؤدي حذف الميزات إلى تحسين أداء النموذج. 
e‏ الاختيار خطوة بخطوة (تدريجى): الاختيار خطوة بخطوة أو التحديد ثنائى الاتجاه 
يشبه الاختيار الرائد » ولكن الاختلاف هو أنه بإضافة ميزة جديدة » فإنه يفحص أيضًا 
أهمية ما تمت إضافته مسبقًا الميزات والعثور على أي ميزات محددة re‏ غير مهمة.. 
ما عليك سوى حذف هذه الميزة المعينة عن طريق حذف الخلفية. ومن ثم » فهو مزيج 
من LEY‏ المقبل والحذف الرجعى. 
في طريقة التصفية» يتم تحديد الخصائص ely‏ على المعايير الإحصائية. لا تعتمد هذه الطريقة 
على خوارزمية التعلم وتختار الميزات كخطوة معالجة مسبقة. تقوم طريقة التصفية بتصفية 
الميزات غير ذات الصلة بالنموذج باستخدام معايير مختلفة من خلال التصنيف. تتمثل ميزة 
استخدام طرق التصفيةني أنها تتطلب وقتا أقل للحساب ولا تؤدي إلى الضبط الزائد للبيانات. 


التقليل الخطى: تحليل paisi‏ الرئيسى "(PCA)‏ 

يعد تحليل العنصر الرئيسي (PCA)‏ أحد أكثر تقنيات تقليل الأبعاد الخطية شيوعًا والتي 
تستخدم تحويلًا متعامدًا لتحويل مجموعة من الملاحظات للمتغيرات المرتبطة المحتملة إلى 
مجموعة من قيم المتغيرات الخطية غير المرتبطة تسمى المكونات الأساسية. قبل تقديم 
التفاصيلء دعنا نفكرني السؤال التالي: 


1 Wrapper Methods 


2 Principal Component Analysis 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


للحصول على أمثلةفي مساحة ميزة متعامدة؟؛ كيف يمكننا استخدام المستويات الفائقة لعرض 
العينات؟ 
حدسيًاء إذا كان مثل هذا المستوى الفائق IB ge ge‏ فمن المحتمل أن يكون له الخصائص التالية: 
الحد الأدنى من خطأ إعادة البناء: يجب أن تكون العينات على مسافة قريبة من هذه المستوى 
الفائق. 
التباين الأقصى: يجب أن يكون اسقاطة (التأثيرات) للعينات على المستوى الفائق Melos‏ 
يجد PCA‏ تمثيلًا للأبعاد للبيانات مع الحفاظ على التغييرات (أي المعلومات المميزة) قدر 
الإمكان. يقوم PCA‏ بذلك عن طريق معالجة الارتباط بين الميزات. إذاكان الارتباط بين مجموعة 
فرعية من الميزات haz eS‏ يحاول PCA‏ الجمع بين الخصائص شديدة الارتباط وعرض هذه 
البيانات مع عدد أقل من الميزات الخطية غير المرتبطة. تستمر الخوارزميةفي تنفيذ تقليل الارتباط 
هذاء وتجد اتجاهات التباين الأقصىفي بيانات الأبعاد ELEY‏ وتعرضهافي مساحة أبعاد أصغر. 
تعرف هذه المكونات المشتقة Éa‏ بالمكونات الأساسية. يتم تعريف هذا التحويل بحيث يكون 
للمكون الرئيسي الأول أكبر تباين ممكن (أي أنه يحتوي على أكبر قدر ممكن من التباينفي 
البيانات) ولكل مكون GY‏ بدوره أكبر تباين ممكن. باستخدام هذه المكونات. من الممكن 
إعادة بناء الميزات الرئيسية (ليس بالكامل). تحاول خوارزمية PCA‏ بنشاط تقليل خطأ إعادة 
الإعمار أثناء البحث عن المكونات المثلى. 
فيما يلي نظرة عامة على كيفية إجراء تحليل المكون الرئيسي في مجموعة بيانات. 
الخطوة 1. مجموعة البيانات 


لنفترض أن لدينا مجموعة بيانات بها سمات أو متغيرات n‏ يشار إليها Xo Xz, e Ane‏ إذا 
كانت هناك عينات «N‏ فإن قيم i‏ للخاصية Xj‏ تساوي Xi, ..., Xin‏ (كما في الجدول أدناه). 


العينة N‏ " العيئة 2 العينة 1 | الميزات 
X1 Xu X12 di Xin‏ 
X; X21 X22 ie Xy‏ 
Xi Xia Xi; oy Xin‏ 
Xn Xu Xn2 ii Xan‏ 


الخطوة 2 حساب مفوسظ المتغيراك 


Xp للمتغير‎ X j Jaws e نحسب‎ 


T orthogonal feature space 


2 projections 
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1 
Xi = y Xa +X, te" + Xin)‏ 
الخطوة 3 عات aiti dba‏ 
ضع في اعتبارك المتغيرات Xi‏ و LX;‏ يتم تعريف التغاير المرتب للزوج (Ki, Xj)‏ على النحو 
التالي: 


N 
1 9 - 
Cov(X, X) = zr (x, = Xon, - X) 
k=1 
Cov(X1,X1) Cov(X,,X2) -- Cov (xX, , Xp) 
g= Cov(X;,X4) Cov(X2,X2) ٠٠١ Cov(X2,Xn) 
Cov(Xn,Xı) Cov(Xn, Xn) °°°  Cov(Xn.Xn) 
الخطوة 4. حساب القيم الذاتية والمتجهات الذاتية لمصفوفة التغاير‎ 
eS مصفوفة تغاير و كذلك نفس المصفوفة 1 التي لها أبعاد مشابهة للبعد‎ S افترض أن‎ 
أ. قم بتكوين المعادلة التالية:‎ 
det(S — AI) = 0 
تتكرر بعض‎ A3) جذور حقيقية‎ sn. فی2‎ n هذه معادلة كثيرة الحدود من الدرجة‎ 
من المعادلة أعلاه.‎ 2, ..., An الجذور‎ N الجذور) وهذه الجذور هي قيم خاصة ل 5. نجد‎ 
ب. إذاكانت  = 2 قيمة خاصة » يكون المتجه الخاص للمتجه كما يلى:‎ 


Uy 
yes 
us 
لهذا السبب:‎ 
(Ss —AI)U =0 
Uj ,لا » بحيث يكون‎ a Un المتجهات الذاتية المتعامدة‎ N ثم نجد مجموعة من‎ 
Ai يتوافق مع‎ SIs Goes 


ج. OW‏ نقوم بتسوية المتجهات الخاصة. بالنظر إلى أي متجه X‏ نقوم بتسويته بقسمة X‏ 
على طوله. طول sh)‏ لينة) المتجه : 


يُعرف كالاتي: 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


|X || = [x2 + x7 +--+ x2 


فيما يتعلق ch‏ متجه خاص  U‏ المتجه الخاص بالتسوية يُحسب: 


: U 
IlU I 
را توسط‎ e, ..., On بردار ويزه نرمالشده‎ nL 
1 
e; = —U,,i = 1,2,...,n. 
‘(Ui 


الخطوة 5. استخراج مجموعات البيانات الجديدة 


رتب القيم الذاتية من اعلى قيمة الى اقل قيمة. اكبر قيمة ذاتية هي المكون الرئيسي الاول. 

أ. دع القيم الذاتية تكون بترتيب تنازلي s, An‏ ,1 ودع المتجهات الذاتية للوحدة 
المقابلة تكون Cn‏ ,... ,€. 

ج. حدد المتجهات الذاتية المقابلة لقيم Ap‏ ,... ر . وشكل المصفوفة التالية 7 p X‏ 


ei 


_|e2 


317 X3. Xn <n c7 Xan — Xn 
ه. ثم نحسب المصفوفة التالية:‎ 
diu > FX 


لاحظ أن هذه مصفوفة p × N‏ تعطينا مجموعة بيانات من عينات N‏ مع الخاصية 
-P‏ 
الخطوة 6. مجموعه بيانات جديدة 
تعد مصفوفة X,‏ مجموعة بيانات جديدة. يمثل كل صف من هذه المصفوفة قيم الخاصية. 
الخطوة 7. النتيجة 


بهذه الطريقة « يساعدنا تحليل المكونات الرئيسية على تقليل حجم مجموعة البيانات. لاحظ أنه 
لا يمكن استعادة مجموعة البيانات الأصلية ذات البعد N‏ من مجموعة البيانات الجديدة. 
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نوضح فكرة تحليل المكون الرئيسي بمثال. في هذا المثال c‏ يتم تقديم كافة تفاصيل العمليات 
الحسابية. هذا لإعطاء القارئ فكرة عن مدى تعقيد العمليات الحسابية وأيضًا لمساعدة القارئ 
على ee‏ بحسابات يدوية دون اللجوء إلى حزم البرامج. 
مثال. Gig‏ للبيانات الواردة في الجدول أدناه . استخدم PCA‏ لتقليل البعد من 2 إلى 1. 


العيئة 4 العينة 3 العينة 2 العينة 1 الميزات 
X, 4 8 13 7‏ 
x; 11 4 5 14‏ 


1. مخطط التشتت (التبعثر) للبيانات 
لدينا: 
zd‏ 
X,=74+8+13+7)=8‏ 
d‏ - 
X= „(11 + 4 + 5 + 14) = 85‏ 


يوضح الشكل التالي الرسم البياني النقطي للبيانات e‏ إلى جنب مع النقطة X, X2‏ 


X2 

14 e | 
12 | 

e 

; 
s Xa) 
6 | 

|. 

4 ° 
2 


> 
0 2 4 6 8 1012 14 Xi 


شكل 12-8. پراکندگی داده‌ها 
ql aaa lao .2‏ 


يتم حساب التغايرات على النحو التالي: 
N‏ 1 
Gs. = Xa‏ ا( ست = Cov(k X.)‏ 
k=1‏ 


= 2004-2 + (8 — 8)? + (13— 8)? + (7 — 8)?) 
= 14 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


N 
1 = 5 
Cov( X5) = ست‎ Yu = X) 6 = X) 
k=1 


5 HC — 8)(11 - 8.5) + (8 — 8)(4 — 8.5) + (13 — 8)(5 — 85) + (7 - 8) (14 — 8.5)) 
=-11 
Cov(X,,X1) = —11 
N 
1 E 
Cov(X;,X4) = a) On c) 
k=1 


1 
= 3 (1 — 85)? + (4 — 85)? + (5 - 85)? + (14 — 8.5)?) 
— 23 
لذلك . فإن مصفوفة التغاير تساوي:‎ à y 
_ [Cov(X4,X,) Cov(X, ,X2) 
0 Cov(X; ,X1) Cov(X; ,X2) 


[14 -11 
-11 23 


3. قيم مصفوفة التغاير الذاتية 
المعادلة المميزة لمصفوفة التغاير تساوي: 


0 = det (S — AI) 


_|14-a -11 
-11 23-4 


= (14 — A)(23 — 2) - (211) x (-11) 

A? — 374 + 1‏ = 
لدينا حل المعادلة: 

A= 507 + V565) 

= 30.3849,6.6151 

11,22 = 
4. حساب المتجهات الذاتية 
للعثور على المكون الرئيسي الأول » نحتاج فقط إلى حساب المتجه الذاتي المقابل لأكبر قيمة 
ذاتية. في المثال الحالي » أكبر قيمة ذاتية هي LA,‏ لذلك نحسب المتجه الخاص ل Ay‏ 
anal‏ الخاض لر A=‏ هي المعجه U = H‏ الذي يحقق المعادلة التالية: 


[2] = (S-4,DX 


a —11 Vl 
~ | —11 23-A|lu 
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_ | )14 - 4u - 11u; | 
~ [-11u, + 23 - Au; 


وهو ما يعادل المعادلتين التاليتين: 
—A,)u, — 11u, = 0‏ 14( 
å, )u, = 0‏ — 23( + 11- 

باستخدام Jas‏ & نظام المعادلة الخطية نجد أن هذه المعادلات ليست مستقلة والإجابات بها: 


Uys Un ae 
11 14-4 
Uy = 11t, uz = (14 — A44)t 


À, هو أي رقم حقيقي. بأخذ 1 = ع. لدينا المتجه الذاتي المقابل ل‎ tee 


لايجاد وحدة المتجه alil‏ نحسب طول XQ‏ 


lU, || = V112 + )14 - 2‏ 
?)30.3849 — 14( + ?11/ = 
19.7348 — 
إذن c‏ المتجه الذاتي ل Ay‏ يساوي : 


11 
o| Zw 
€1 = ay 
VAL 


11/ 
E 19.7348 
14 — 30.3849] 
19.7348 


0.5574[ _ 
1—0.8303 ~ 
من خلال إجراء حسابات مماثلة » يمكن الحصول على المتجه SIU‏ رع المقابل للقيمة 
الذاتية A = A4‏ 
e, = [0.8303‏ 
")10.5574 2 


5. حساب المكون الرئيسي الأول 


افترض| “٠بر k‏ عينة موجود في جدول البيانات. المكون الرئيسي الأول لهذه العينة هو: 
2k‏ 5 5 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


[Xin — X3 iiu 
` [Xo — X2 X»y — X2 


= 0.5574(X 1, — X4) — 0.8303(X 5, — X2). 
على النحو التالي:‎ = [ál [ المثال « »يتم حساب المكون الرئيسي الأول للعينة الأولى‎ de على‎ 
X11 zx 
X21 — X2 
= 0.5574(X11 — X1) — 0.8303(X21 — X2) 
— 0.5574(4 — 8) — 0.8303(11 — 8.5) 


|- [0.5574 —0.8303] 


[0.5574 —0.8303] 


4.30535— = 
تم تلخيص نتائج الحسابات في الجدول أدناه: 
Xi 4 8 13 7‏ 
X; 11 4 5 14‏ 


5.1238— 5.6928 3.7361 4.3052— | المكون الرئيسى الأول 


6. المعنى الهندسي للمكون الرئيسي الأول 


بالنسبة للشكل 12-8 6 نقدم محاور إحداثيات جديدة. أولاً نغير الأصل إلى "المركز" XX,‏ ثم 
نغير اتجاه محاور الإحداثيات إلى المتجهات الذاتية e‏ و ea‏ (انظر الشكل 13-8). 


X24 

14 ` 

12 E Jt, 
10 ET "d 

SO» 

j oka) 

6| o 

4 P N 

2 K 


0 2 4 6 8 1012 14 X, 
الشكل 13-8 جهاز الإحداثيات للمكونات الاصلية‎ 
(انظر الشكل 14-8). المكون‎ e, ثم نرسم الخطوط العمودية من النقاط المعطاة إلى المحور‎ 
هو الأرجل الرأسية. يمكن اعتبار تعيين نقاط البيانات في المحور‎ e الرئيسي الأول لإحداثيات‎ 
حتى نتمكن من استبدال مجموعة البيانات المقدمة‎ c البيانات المقدمة‎ bl ره بمثابة تقريب‎ 
بهذه النقاط.‎ 
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الآن ‏ يمكن الإشارة بوضوح إلى كل من هذه التقريبات برقم » والإحداثيات التقريبية ل 6. 
لذلك . يمكن تمثيل مجموعة البيانات ثنائية الأبعاد المقدمة تقريبًا بواسطة مجموعة البيانات 
أحادية البعد التالية (انظر الشكل 15-8).: 


5.1238- 5.6928 3.7361 4.3052— المكون الرئيسى الاول 
X2‏ 
(7,14)هر e‏ 14 
sT‏ 
a 4,11)e" > U7 2‏ 
CES‏ 10 
_ _ 

: (Xi, X2) 

"i هر‎ (13,5 
4 "id (8,4)e u ( ) 
2 `€] 


> 
0 2 4 6 8 1012 14 Xj 


الشكل 14-8 تعيين البيانات على محور المكون الرئيسي الأول 


X24 X24 
14 \ e 14 s 
(7,14) o 
12 m 7&5 12 9 5 
10 (4,11) ٠ d 10 E - 
8 5 8 M 
GG, X2) (4, X2) 
6 "d x 6 " ١ 
d 03,5) U ١ 
4 P. 3 e. ` , 4 ^ 
' (84) N f 5 
2 M 2 x 
\E] 61 
02 4 6 8 10 12 14 Xi 2. 4 6 8 10 1214X 


الشكل 15-8 التمثيل الهندسي التقريبي أحادي البعد للبيانات 


يمكنك adl‏ تشغيل الكود التالي في بايثون: 


In ]1[1: 8 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.decomposition import PCA 


X = np.array([[4, 11], [8,4], [13,5], [7,14]]) 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والآدوات 


X1-np.mean(X[:, 0]) 

X2=np.mean(X[:, 1]) 

pca = PCA(n components- 1) 

pca.fit(X) 

X pca = pca.transform(X) 

X new = pca.inverse transform(X pca) 
plt.scatter(X[:, 0], X[:, 1], alpha=0.2) 
plt.scatter(X1, X2, alpha=0.2) 
plt.scatter(X new[:, 0], X_newJ[:, 1], alpha=0.8) 
plt.axis(‘equal'); 
print(pca.components_) 


Out [1]: [[ 0.55738997 -0.83025082]] 


14 
"e‏ 124 
4 10 
16 4 =“ 10 8 6 4 2 0 
Uljo‏ و عيوب PCA‏ 
المزايا: 
«سهل الحساب: يعتمد PCA‏ على الجبر الخطي e‏ والذي يتم حله بسهولة حسابيًا عن طريق 
الكمبيوتر. 


»يزيد من سرعة خوارزميات التعلم الآلي الأخرى: تتقارب خوارزميات التعلم الآلي بشكل 
أسرع عند تدريبها على المكون الرئيسي بدلاً من مجموعة البيانات الرئيسية. 
العيوب: 
«توحيد البيانات: يجب توحيد البيانات قبل PCA ias‏ « وإلا يصبح من الصعب تحديد 
المكونات الأساسية المثلى. 
«تفترض PCA‏ علاقة خطية بين الخصائص: الخوارزمية غير مناسبة للعلاقات غير الخطية. 
التعلم المتشعب (التقليل غير الخطى) 


في القسم السابق , رأيناكيفية استخدام تحليل المكون الرئيسي في عمل تقليل الأبعاد. في حين 
أن PCA‏ مرن وسريع » إلا أنه لا يعمل بشكل جيد عندما تكون هناك علاقات غير خطية في 
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البيانات. للتغلب على هذا القيد » يمكننا الرجوع إلى مجموعة من الأساليب تسمى التعلم 
المتشعب؛ مجموعة من المقدرين غير الخاضعين للإشراف الذين يسعون إلى وصف مجموعات 
البيانات على أنها مشعبات منخفضة الأبعاد مدمجة في مساحات عالية الأبعاد. 

عندما SG‏ في مشعب . أقترح أن تتخيل ورقة. من الممكن استئجار معدات للعمل على 
تأجير معدات إلكترونية على الإنترنت ثم ثنيها أو تركيبها. في مصطلحات التعلم المتشعب € 
يمكن اعتبار هذه الصفيحة الصخرية متعددة الأبعاد ثنائية الأبعاد مضمنة فى الفضاء ثلاثى 
الأبعاد. لا يؤدي تدوير أو إعادة لف أو شد قطعة من الورق في المساحة التالية إلى تغيير الشكل 
الهندسي الناعم للورق. إذا قمت بثني الورق أو لفها أو تجعيدها » فسيظل متشعبًا ثنائي الأبعاد ء 
لكن التضمين في مساحة ثلاثية الأبعاد لم يعد Cla‏ تسعى خوارزميات التعلم المتشعبة إلى تعلم 
الطبيعة ثنائية الأبعاد لهذه الورقة c‏ أو بعبارة أخرى e‏ لتحديد هيكل هذا المتشعب. 

بشكل أساسي . تنص الفرضية المتشعبة على أن البيانات عالية الأبعاد في العالم الحقيقي يتم 
وضعها على مشعبات منخفضة الأبعاد مدمجة في الفضاء عالي الأبعاد. بعبارات أبسط » هذا 
يعنى أن البيانات ذات الأبعاد الأعلى Ole‏ ما تكون أقرب ias‏ مشعب ذي أبعاد أقل. تسمى 
gks‏ النمذجة المتشعبة التي تستند إليها أمثلة التدريب التعلم المتشعب. 

تُظهر نظرية الهندسة التفاضلية أنه يمكن اعتبار المشعب مساحة رياضية مجردة يمكن تحديد 
هندستها الجوهرية بالكامل من خلال المقاييس المحلية ومعلومات الجوار الصغيرة جد التي 
تشبه الفضاء الإقليدي. لذلك قد نعتقد أنه يمكن استخدام بنية الجوار المحلية للمشعب MNT‏ 
نقاط البيانات في مساحة عالية الأبعاد في فضاء خصائص الأبعاد. وبالتالي » إذا تم تضمين 
مشعب الأبعاد في مساحة عالية الأبعاد . فإن العينات التي تبدو معقدة للغاية في الفضاء عالي 
الأبعاد لها نفس الخصائص المحلية مثل العينات الموجودة في الفضاء الإقليدي. لذلك « يمكننا 
إنشاء رسم الخرائط محليًا ثم توسيعه ليشمل المساحة بأكملها. عندما يتم تقليل الأبعاد إلى اثنين 
أو ثلاثة » يمكننا بشكل طبيعي تصور البيانات ٠‏ لذا فإن تعلم المشعب مفيد لأغراض التوضيح 
Call‏ في استمرار لهذا القسم » سنراجع بعض خوارزميات التعلم المتشعب الشائعة. 
ايزوماب' 


ايزوماب هي خوارزمية تعلم تشعبية تتعلم النموذج الداخلي للبيانات. يربط أقرب الجيران ويشكل 
رسمًا Ly‏ ثم يقوم بحساب أقصر مسار بين جميع عقد الرسم البياني. يقدر المسافة الجيوديسية 
(مسافة نقطتين من السطح) للنقاط. ST‏ يطبق مقياسًا متعدد الأبعاد على الرسم البياني 
لمصفوفة تباعد الرسم البياني . مما يسمح بتضمين البيانات الأصلية بأبعاد منخفضة. 

هناك طريقتان عامتان لبناء مخطط الجوار. النهج الأول هو تحديد عدد الجيران. على سبيل 
المثال « استخدام كي- أقرب جار مع معيار المسافة الإقليدية. طريقة أخرى هي تعيين عتبة 


1 Isomap 
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المسافة للنظر في جميع النقاط التي تقل مسافة عن E‏ كجيران. ومع ذلك c‏ فإ نكلا النهجين لهما 
نفس القيود: إذاكان نطاق الجوار المحدد ۸ أوكبيرًا » فقد تحدث " دائرة مقصورة" e‏ حيث تعتبر 
بعض النقاط البعيدة عن طريق الخطأ قريبة من بعضها البعض. من ناحية أخرى » إذا كان نطاق 
الجوار المحدد صغيرًا جد . فقد تحدث "دائرة مفتوحة" يتم فيها فصل بعض المناطق عن بعضها 
البعض. 

تعد خوارزمية فلويدأ خوارزمية فعالة لحساب أقصر مسار بين كل زوج من الرؤوس في الرسم 
البياني ‏ والتي تعمل بشكل أفضل مع الرسوم البيانية الكثيفة (الرسوم البيانية ذات الحواف 
المتعددة). ومع ذلك . تفضل خوارزمية ديكستراة عندما يكون الرسم البياني منفردًا. تحتوي 
خوارزمية فلويد على تعقيد (0)713 في أسوأ الأحوال » بينما تحتوي خوارزمية ديكسترا مع هرم 
فيبوناتشي على تعقيد O(Kn*logn)‏ حيث K‏ هو حجم الجوار. 

يوفر ايزوماب فقط إحداثيات منخفضة الأبعاد لعينات التدريب » ولكن كيف يمكننا إحضار 
العينات الجديدة إلى الفضاء السفلي؟ تتمثل الطريقة العامة في تعليم نموذج الانحدار باستخدام 
إحداثيات الأبعاد العليا لعينات التدريب كمدخلات والإحداثيات السفلية المقابلة كإخراج. ثم 
استخدم نموذج الانحدار المدرب للتنبؤ بالإحداثيات السفلية للعينات الجديدة. مثل هذه الطريقة 
لا يبدو أنها شائعة ولكن في الوقت الحالي لا يبدو أن هناك حل أفضل !! 
التضمين الخطى المحلى ' (LLE)‏ 
على عكس ايزوماب» التى تحافظ على المسافة بين العينات e‏ فإن التضمين الخطى المحلى 
Gag (LLE)‏ إلى الحفاظ على العلاقات الخطية بين العينات المجاورة. الاقتباس الشائع ie‏ 
خوارزمية LLE‏ هو "فكر Golle‏ ء مناسبًا محليً”*: بعبارة أخرى . تنظر الخوارزمية إلى الأجزاء 
الصغيرة المحلية حول كل عينة وتستخدم هذه الأجزاء لعمل متشعب أوسع. كما هو موضح في 
الشكل 16-8 افترض أنه يمكن إعادة بناء إحداثيات نقطة عينة Xj‏ من خلال مجموعة خطية 
من إحداثيات العينات المجاورة ز× Xp Xo‏ أي: 

Xi = WijXj + Wik Xk + WiXı 

الغرض من LLE‏ هو الحفاظ على علاقة عالية في الفضاء البعدي. 


g Floyd's algorithm 

2 Dijkstra's algorithm 

3 Locally Linear Embedding 
4 think globally, fit locally 
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الشكل 16-8. يتم الحفاظ على العلاقة بين إعادة ely‏ العيناتفي الفضاء gle‏ الأبعاد. 


يبدأ LLE‏ بتحديد مؤشرا ات الجوار Qi‏ لعينة Xi‏ ثم يجد أوزان «UJ sale}‏ (تجديد) الخطية 
لعينات Wi‏ في :Qi‏ 


ee X 


jeQi 


s.t Sma =1 


jeQi 
لديه حل مغلق'‎ Wiz إذن‎ « Cj = (xi — xj)! ) — xy) معروفان. اذا كان‎ xj و‎ Xi حيث‎ 


الشكل: 


Wij — DS 

Liseo, Cis 
Zi في مساحة تقليل الأبعاد . يمكن الحصول على إحداثيات الابعاد‎ Wi تخزن‎ LLE OY نظرًا‎ 
على النحو التالي:‎ xi من‎ 


mins, zn > 


esl 


jeQi 


X, يحسن إحداثيات البعد السفلى‎ Zi 
اذن‎ M = )1 - W)' )1 -W) و‎ (W)ij = Wij ,2 = (Zi Zm)ERO™ اذا كان‎ 
يمكن صياغة المعادلة السابقة‎ 
minz tr(ZMZT) 
s.t ZZ" =1 


1 closed form solution 
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يمكننا حل المعادلة أعلاه عن طريق تحليل القيم الذاتية : ZT‏ عبارة عن مصفوفة تتكون من 
المتجهات الذاتية © مع أصغر القيم الذاتية „M‏ 


تى- تضمين الجوار الموزع عشوانئيًا (t-SNE)‏ ' 


يعد تضمين الجوار العشوائي الموزع (t-SNE)‏ أحد أكثر تقنيات تقليل الأبعاد غير الخطية 
شيوعًا لتصور البيانات عالية الأبعاد. يقوم t-SNE‏ بذلك عن طريق نمذجة أي نقطة عالية الأبعاد 
في فضاء ثنائي أو ثلاثي الأبعاد . حيث تكون النقاط المتشابهة قريبة من بعضها البعض والنقاط 
غير المتشابهة بعيدة. للقيام بذلك e‏ تقوم t-SNE‏ بعمل توزيعين احتماليين » أحدهما على أزواج 
من النقاط في الفضاء عالي الأبعاد والآخر على أزواج من النقاط في مساحة منخفضة الأبعاد ء 
بحيث تكون النقاط المتشابهة أكثر احتمالية وتقل احتمالية النقاط المتباينة. بتعبير أدق « يقلل 
t-SNE‏ من تباعد SWS‏ — ليبليرة بين توزيعي الاحتمال. 

تتمثل الخطوة الأولى في خوارزمية t-SNE‏ في حساب المسافة بين كل عينة وعينة أخرى في 
مجموعة البيانات. بشكل افتراضي » يتم استخدام المسافة الإقليدية لقياس المسافة » وهي مسافة 
الخط المستقيم بين نقطتين في مساحة الميزة. ثم يتم تحويل هذه المسافات إلى احتمالات. 
يمكنك رؤيته في الشكل 17-8. 


Xy 
4 
J 
المجموع احتمالات بدون مقارنة‎ 
0.300 0.380 0.380 0.020 0.010 0.009 | 1.099 
| + 1.099 
o X المجموع الاحتمالات المقارنة‎ 


| 0.273 0.346 0.346 0.018 0.009 0.008 | 1.000 | 


الشكل 17-8. Cle‏ المسافات وتحويلها إلى احتمالات. 
بالنسبة لعينة معينة في مجموعة البيانات » يتم قياس المسافة بين هذا العينة والعينات الأخرى. 
ثم يركز التوزيع الطبيعي على هذه الحالة c‏ ويتم تحويل المسافات إلى احتمالات عن طريق تعيينها 
لكثافة احتمالية التوزيع الطبيعي. الانحراف المعياري لهذا التوزيع الطبيعي يرتبط عكسيًا BES‏ 
العينات حول العينة. بمعنى آخر . إذا كان هناك العديد من العينات القريبة (أكثر OU 6 (BES‏ 


1 t-distributed stochastic neighbor embedding 


2 Kullback-Leibler divergence 
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الانحراف المعياري للتوزيع الطبيعي يكون أصغر. ولكن إذا كانت هناك حالات قليلة في المنطقة 
المجاورة BES)‏ أقل) c‏ فإن الانحراف المعياري يكون أكبر. 

بعد تحويل المسافات إلى احتمالاات > يتم قياس الاحتمالات لكل حالة بقسمة مجموعها. 
يؤدي هذا إلى وصول مجموع الاحتمالات لكل عينة في مجموعة البيانات إلى 1. إن استخدام 
انحرافات معيارية مختلفة لكثافات مختلفة ثم تسوية الاحتمالات إلى 1 لكل عينة يعني أنه في 
حالة وجود مجموعات كثيفة ومجموعات فردية من العينات فى مجموعة البيانات x‏ فإن t-SNE‏ 
يوسع المجموعات الكثيفة ويشتت المجموعات. يمكن Go P‏ بسهولة أكبر. 

bite‏ يتم حساب الاحتمالات المقاسة لكل عينة في مجموعة البيانات » لدينا مصفوفة 
احتمالية تصف مدى تشابه كل حالة مع بعضها البعض. يظهر هذا الرسم التوضيحي في الشكل 
18-8 كخريطة حرارية. 


Xy, Xy 
2 2 
1 3 1 3 
4 5 4 5 
7 
6 6 
03 ^ 4 
0 0 x) 
xy Xy 
2 2 
1 as e @ 
4 5 TS 4 5 
7 7 
6 6 


ry a يب بل-‎ 
25 Xy 9 x) 


الشكل 18-8 يتم تخزين الاحتمالات المقاسة لكل عينة كمصفوفة من القيم. هذه موضحة هنا كخريطة 
حرارية: كلما اقتربت Ole!‏ كلما كان الصندوق أكثر قتامة» مما يشير إلى بعدهما عن الخريطة الحرارية. 

مصفوفة الاحتمالات الخاصة بنا هي OW‏ مرجعنا أو نمطنا لكيفية ارتباط قيم البيانات ببعضها 
البعض في الفضاء الرئيسي عالي الأبعاد. تتمثل الخطوة التالية في خوارزمية 6-5708 في ترتيب 
العناصر بشكل عشوائي على محورين (ليس بالضرورة محورين» ولكن هذا هو الحال lia) Gole‏ 
هو المكان الذي يحصل فيه t-SNE‏ على اسمه العشوائي). 

يحسب t-SNE‏ المسافات بين العينات في هذا الفضاء العشوائي والبعد الأدنى الجديد « 
ويحولها إلى احتمالات كما كان من قبل. الاختلاف الوحيد هو أنه بدلاً من استخدام التوزيع 
الطبيعي . فإنه يستخدم الان توزيع -T-Student‏ يشبه توزيع T‏ إلى حد ما التوزيع الطبيعي € 
باستثناء أن الوسط ليس So db‏ جد وأن الجانبين أكثر سلاسة وأكثر سحبًا للخارج (الشكل 8- 
19(. 
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© 
CEN S 
9° OHS 


الشكل 19-8 التوزيع الطبيعي وتوزيع t‏ 

تتمثل مهمة OYI t-SNE‏ في "تشابك" نقاط البيانات حول هذه المحاور الجديدة خطوة بخطوة 
لجعل مصفوفة الاحتمالية فى مساحة البعد الأدنى قريبة قدر الإمكان من مصفوفة الاحتمال 
الرئيسية في مساحة البعد الأعلى. الحدس هنا هو أنه إذاكانت المصفوفات متشابهة قدر الإمكان, 
فإن البيانات في كلا الفراغين تكون قريبة من بعضها البعض. من أجل أن تكون مصفوفة 
الاحتمالية فى الفضاء منخفض الأبعاد مشابهة لمصفوفة الفضاء عالية الأبعاد . يجب أن تكون 
كل عينة أقرب إلى العينات التي كانت قريبة منها في البيانات الأصلية وبعيدًا عن العينات التي 
كانت بی ei‏ لذلك a c‏ اتات الى يجب od‏ کن ell Ue coded i‏ « ولكن 
العينات التي يجب أن تكون بعيدة تكون مشتتة. يؤدي توازن هذه القوى الجاذبة والمنافرة إلى 
تحرك كل عنصر في مجموعة البيانات في اتجاه يجعل مصفوفتي الاحتمال أكثر تشابهًا SU‏ 
o‏ في هذا E‏ الجديد « تتم إعادة حساب مصفوفة اا البعد السفلي وتتحرك 
العينات مرة أخرى c‏ مما يجعل مصفوفات الأبعاد الدنيا والعليا تبدو أكثر Glis‏ قليلاً مرة أخرى. 
تستمر هذه العملية حتى نصل إلى عدد محدد esa‏ من التكرارات » أو حتى يتحسن التباعد 
(الاختلاف) بين المصفوفات. بمجرد أن تتقارب هذه العملية التكرارية مع اختلاف تباعد 
LU S"‏ ليبلير المنخفض e‏ يجب أن يكون لدينا تمثيلات منخفضة الأبعاد لبياناتنا الأصلية التى 
تحتفظ بأوجه التشابه بين العينات القريبة. العملية برمتها موضحة في الشكل 208 l‏ 


الفصل الثامن: التعلم غير الخاضع للاشراف 389 


1234567 التكرار 1 
1 1 8 #4562 71 
H j| 2 2‏ 
sels‏ كولباك- ليبلير 3 3 
4 4 
5 5 
(اعلى) 6 6 
7 7 > 
التكرار 2 
2 2 23 1 564 7 
تباعد كولباك-لیبلیر 3 3 
4 4 
5 5 
(متوسط) 6 6 
7 7 
التكرار 100 
1 1 
2 2 
AJ SWS sels‏ 4 213 675 
4 4 
, 5 5 
(اسفل) 6 6 
7 7 


الشكل 20-8. عملية خوارزمية -SNE‏ يتم تهيئة العينات بشكل عشوائي على محاور جديدة (يظهر 
المحورني هذا المثال). يتم حساب مصفوفة الاحتمالات لهذا المحور ويتم خلط العناصر لجعلها تبدو مثل 
المصفوفة الأصلية عالية الأبعاد عن طريق تقليل تباعد كولباك - ليبلير. أثناء الإزاحة. codecs‏ العينات 
إلى العينات التي تشبهها (خطوط دائرية) وتبتعد عن الكائنات غير المتشابهة (خطوط مثلثة). 


قد تتساءل عن سبب استخدامنا للتوزيع غ لتحويل المسافات إلى احتمالات في الفضاء ذي 
الأبعاد المنخفضة؟ الرجوع إلى الشكل 19-8 مرة أخرى لفهم أفضل. كلا جانبي توزيع 6 أوسع 
من التوزيع الطبيعي. هذا يعني أنه من أجل الحصول على نفس الاحتمال للتوزيع الطبيعي » يجب 
أن تبتعد الحالات غير المتشابهة عن الحالة التي يتركز فيها توزيع غ. يساعد هذا في تفريق 
مجموعات البيانات التي قد تكون موجودة في البيانات ويساعدنا في التعرف عليها بسهولة أكبر. 
ومع ذلك » فإن الاستنتاج المهم هو أن OU t-SNE‏ ما يقال إنه يحافظ على البنية المحلية في 
تمثيل منخفض الأبعاد . ولكنه عادة لا يحافظ على الهيكل العالمي. في الممارسة العملية » هذا 
يعنى أنه يمكننا تفسير العينات القريبة من بعضها البعض فى التمثيل النهائى على أنها متشابهة . 
P‏ لا يمكننا بسهولة تحديد مجموعات العينات المشابهة Silt cde cud‏ الأخرى فى 
البيانات الأصلية. 
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يتم عرض خطوات خوارزمية t-SNE‏ في أدناه: 
الخطوة 1. حساب المسافة بين أزواج من النقاط. 
«SL‏ يقارن t-SNE‏ أزواج من نقاط البيانات في الفضاء عالي الأبعاد. يشير الاحتمال الشرطي 
لكل زوج إلى مدى قرب النقاط. يمكن أن يكون مقياس التشابه المستخدم لبناء توزيع 
الاحتمالات هو المسافة الإقليدية. وفقًا HUY‏ تكون نقاط البيانات القريبة محتملة للغاية » بينما 
تكون نقاط البيانات المنفصلة بشكل كبير صغيرة جداً. رياضياً ‏ يكون الاحتمال الشرطى بين 
نقطتي البيانات x;‏ و »كما يلي: 


" (dral -xl ) 


—|lx; — xy ll? 
Dewi exp Co 


Dji = 


حيث ,0 هو تباين التوزيع الغاوسي. تجد الخوارزمية قيمة :6 بسبب ارباك هذا التوزيع. يقيس 
الارباك إمكانية التنبؤ ببعض التوزيعات الاحتمالية وهو عامل مهم في -SNE‏ يمكن للمستخدم 
تحديد هذا «pelea‏ وتتراوح القيم المفيدة من 5 إلى 50. 

كثافة الاحتمال لزوج من النقاط تتناسب مع تشابهها. بالنسبة لنقاط البيانات القريبة » ستكون 
pj‏ مرتفعة نسبيًا » وبالنسبة للنقاط المنفصلة بشكل كبير » ستكون pj‏ صغيرة. تناظر 
الاحتمالات الشرطية في مساحة البعد العلوي للحصول على أوجه التشابه النهائية في مساحة البعد 
الأعلى. لقياس التشابه الزوجي بين نقطتي بيانات » تكون الاحتمالات الشرطية متماثلة مع 
احتمالات pij‏ الشائعة عن طريق حساب متوسط نقطتين . مع الأخذ في الاعتبار إجمالي نقاط 
iN‏ 

py = Pin Pas 

الخطوة 2. بناء فضاء البعد السفلي. 
بعد قياس احتمالات أزواج النقاط لمساحة البيانات الرئيسية » فإن الخطوة التالية هي إنشاء 
مساحة ols‏ أبعاد منخفضة. " حساب d‏ التشابه بين dij‏ بين نقطتي البيانات Yi‏ و Yj‏ في 


a [x al = 


Dj = 2 
Dkzl(1 + I" - «| j^^ 


1 perplexity 
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Xj و‎ Xj هي نظائر منخفضة الأبعاد لنقاط البيانات عالية الأبعاد‎ y; و‎ y; 
الخطوة 3. تقليل الفرق بين توزيعات احتمالية الفضاء عالية الأبعاد والفضاء الجديد.‎ 


تتمثل الخطوة التالية في تقليل الاختلاف بين التوزيع الاحتمالي للفضاء الأصلي Sle‏ الأبعاد 
والمساحة الجديدة التي تم إنشاؤها عن طريق تقليل عدد الأبعاد. يتم استخدام دالة الخطأ لتقليل 
هذا الاختلاف مع الانحدار الاشتقاقي. في حالة t-SNE‏ . هذه الدالة هي دالة Les‏ تباعد 
SWS‏ ليبلير KL)‏ 
Dii (pil lj) = > pijlog 2i‏ 
izj ij‏ 
تعمل t-SNE‏ على تحسين النقاط في مساحة البعد السفلي باستخدام الانحدار الاشتقاقي ودالة 
فقدان تباعد KL‏ لماذا نستخدم PKL‏ عندما نقوم بتقليل تباعد KL‏ « يصبح Use qij‏ هو 
نفسه pij‏ « وبالتالي فإن بنية البيانات في مساحة الأبعاد العليا ستكون مشابهة لهيكل البيانات في 
مساحة الأبعاد السفلية. tly‏ على معادلة الاختلاف KL‏ 
٠‏ إذاكانت قيمة Pij‏ كبيرة e‏ فنحن بحاجة إلى قيمة كبيرة ل qij‏ لإظهار النقاط المحلية ذات 
التشابه العالي. 
e‏ إذا كانت قيمة pij‏ صغيرة » فنحن بحاجة إلى قيمة صغيرة ل qij‏ لإظهار النقاط المحلية 
المتباعدة. 

الخطوة 4. استخدم توزيع t‏ لحساب التشابه بين نقطتين في مساحة البعد الأدنى. 

يستخدم t-SNE‏ توزيع t-student‏ لحساب التشابه بين نقطتين في مساحة البعد السفلي 
بدلاً من التوزيع الغوسي. ينشئ توزيع نقطة الإنطلاق التوزيع الاحتمالي للنقاط في مساحة البعد 
الأدنى ويساعد على تقليل مشكلة الازدحام. 

هذه الطريقة لها أيضًا عيوبها. التطبيق المباشر على مجموعات البيانات متعددة الأبعاد غير 
عملي » OY‏ المسافات متشابهة جد في الأبعاد الكبيرة. لذلك e‏ قبل استخدام  t-SNE‏ يمكن 
تطبيق البيانات متعددة الأبعاد على طرق تقليل الأبعاد الأخرى أولاً. بعد ذلك . يمكن تطبيق t-‏ 
SNE‏ إذا لزم الأمر. يعد التسوية خطوة مهمة قبل إدخال البيانات » حيث أن مقياس المسافة 
المستخدمة هو المسافة الإقليدية. نظرًا OY‏ الخوارزمية عشوائية e‏ يمكن تشغيلها عدة مرات للعثور 
على الحل الأقل ضررًا بسبب اختلاف KL‏ 
UMAP‏ 
في السنوات ESM‏ تم اقتراح طريقة جديدة لتقليل الأبعاد تسمى UUMAP‏ هذه التقنية غير 
خطية وتتبع فكرة t-SNE‏ لإنشاء مساحة بعد أقل للبيانات. ومع ذلك e‏ هناك العديد من 
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الاختلافات الرئيسية. يعتمد نموذجه الرياضي على الهندسة الريمانية والطوبولوجيا. لا يستخدم 
UMAP‏ التسوية في التوزيعات الاحتمالية. في المقابل » يتم استخدام نسخة متجانسة من كي- 
أقرب ole‏ يتمتع UMAP‏ بالعديد من المزايا على t-SNE‏ من حيث الأداء. يكون أسرع عند 
تضمينه فى فضاء بعد جديد أكبر من ثلاثة أبعاد. يحافظ UMAP‏ بشكل أفضل على الهيكل 
العام أثناء تخزين المعلومات المحلية. Giy‏ للخوارزمية » ترتبط كل نقطة في العرض عالية الأبعاد 
بجارتها. بينما يحتوي t SNE‏ على معامل مهم (ارتباك) « فإن UMAP‏ يحتوي على الكثير. 
أهم المعاملات هي عدد الجيران c‏ والحد الأدنى للمسافة y c‏ وعدد المكونات والقياس. ومع ذلك 
فإن الميزة هي أن هذه المعاملات مفهومة بشكل مباشر وسنشرحها بمزيد من التفصيل. 

يعد ales‏ عدد أقرب الجيران أحد أهم المعاملات. يحدد هذا المعامل حجم الجيران 
المحليين المقصودين e‏ مما يؤثر على بناء الرسم البياني الأولي ذي الأبعاد العالية. يتم الاحتفاظ 
بالتفاصيل المحلية عند تحديد قيم صغيرة لهذه المعامل. في المقابل . مع القيم AT‏ تولي 
الخوارزمية الانتباه إلى الهيكل العام في البيانات الأولية. يمكن اعتبار هذا المعامل بمثابة تغيير 
من معامل الارتباك فى £-SNE‏ 

المعامل الثاني RT‏ هو الحد الأدنى للمسافة التي تتحكم في مدى احتواء النقاط G‏ في 
عرض منخفض الأبعاد. تؤدي القيم المنخفضة إلى تمثيلات أكثر BES‏ بينما تؤدي القيم العالية 
إلى تخصيص أقل BES‏ لنقاط البيانات. يحدد المعامل رقم المكون أبعاد مساحة البعد المصغر 
التي يتم عرض البيانات عليها. يتحكم المعامل المتري في كيفية حساب المسافة في المساحة 
المحيطية لبيانات الإدخال. 

دالة الخسارة التي يستخدمها UMAP‏ هي إنتروبيا التفاعل بين التمثيلات الطوبولوجية للأبعاد 
العالية والمنخفضة للمسافات. يعد هذا tal‏ فرقًا مهما مقارنة ب t-SNE‏ « والذي يستخدم 
اختلاف KL‏ كدالة خسارة. ومع ذلك » مثل العديد من تقنيات الأبعاد » يستخدم UMAR‏ الانحدار 
الاشتقاقى لتقليل دالة الخسارة هذه. 

عيب 128 تقليل الأبعاد هذه أنه ليس من المهم اختيار مجموعة جيدة من المعاملات. قد 
تكون المسافات بين المجموعات بلا معنى » حيث يتم أخذ المسافات المحلية في الاعتبار عند 
إنشاء الرسم البياني. تعد خوارزمية UMAP‏ عشوائية وتنتهي في الحد الأدنى المحلي . لذلك من 
الأفضل الحصول على نتائج باستخدام نفس المعاملات عدة مرات. يستخدم UMAP‏ العشوائية 
لتسريع خطوات التقدير وللمساعدة في حل مشكلات التحسين الصعبة. هذا يعني أن تطبيقات 
UMAP‏ المختلفة يمكن أن تؤدي إلى نتائج مختلفة. UMAP‏ مستقر نسبيًا. لذلك . يجب أن 
يكون التباين بين الأداء من الناحية المثالية صغيرًا نسبيًا » ولكن قد يختلف الأداء. يمكن ضبط 
وضع الحبوب العشوائي لضمان إمكانية إعادة إنتاج النتائج بدقة. 
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المشفر التلقائي (Autoencoder)‏ عبارة عن شبكات عصبية تستخدم لتقليل الأبعاد. الهدف 
من الترميز التلقائي هو تعلم التمثيل المكثف لبيانات الإدخال من خلال تحقيق إعادة البناء عند 
المخرجات. ببساطة . المشفرات التلقائية لديها القدرة على اكتشاف التمثيلات عالية الأبعاد 
لبيانات عالية الأبعاد وقادرة على إعادة إنتاج المدخلات من المخرجات التي تحاول نقل 
المدخلات ‏ إلى نفسها. قد يبدو تعلم النسخ من المدخلات إلى المخرجات تافهاً » ولكن بفرض 
بعض القيود على بنية الشبكة » يضطر المشفر التلقائي إلى تعلم أهم ميزات بيانات التدريب › 
حيث لا يمكنه نمذجة كل شيء. 

تكمن الفكرة وراء المشفر التلقائي في تلقي بيانات إدخال عالية الأبعاد من خلال عنق زجاجة 
المعلومات » وفي هذه العملية » تحويلها إلى تمثيل متخفض الأبعاد » ثم إعادة إنتاج بيانات 
الإدخال من هذا التمثيل الذي تم تعلمه. من خلال تعيين المدخلات في مساحة ذات أبعاد 
مخفضة c‏ تكون الشبكة العصبية قادرة على التعلم واستخراج الميزات المختلفة. 

الآن » قد يُطرح السؤال للقارئ حول سبب إزعاجنا لتعلم تمثيل المدخلات الأصلية فقط 
لإعادة إنتاج المخرجات بأفضل ما نستطيع. الإجابة هي أنه عندما يكون لدينا مدخلات مع العديد 
من الميزات e‏ فإن إنشاء تمثيل مضغوط من خلال الطبقات المخفية للشبكة العصبية يمكن أن 
يساعد في ضغط مدخلات عينة التدريب. لذلك عندما تقوم الشبكة العصبية بمراجعة جميع 
بيانات التدريب وضبط وزن جميع عقد الطبقة المخفية ء فإن ما يحدث هو أن الأوزان تمثل Go‏ 
نوع الإدخال الذي نراه Sole‏ نتيجة لذلك ‏ إذا أردنا إدخال نوع آخر من البيانات » مثل الحصول 
على بيانات مع بعض الضوضاء » فستكون شبكة المشفر التلقائي قادرة على اكتشاف الضوضاء 
عند الإدخال وإزالة جزء على الأقل من الضوضاء عند توليد الإخراج.. 

يتكون المشفر التلقائي من جزأين من الشبكة العصبية › المشفر وجهاز فك التشفير. يعمل 
المشفر على تقليل حجم مجموعة البيانات الكبيرة إلى مجموعة صغيرة c‏ بينما يقوم جهاز فك 
التشفير بشكل أساسي بتوسيع البيانات منخفضة البيانات إلى البيانات الكبيرة. الغرض من هذه 
العملية هو محاولة إعادة إنتاج المدخلات الأصلية. إذا كانت الشبكة العصبية جيدة الإنشاء e‏ 
فهناك فرصة جيدة لإعادة إنتاج المدخلات الأصلية من البيانات المشفرة. يظهر هيكل وحدة 
المشفر التلقائي في الشكل 21-8. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


9 
XX 


^S VR 


البيانات الناتجة البيانات المشفرة البيانات الواردة 
الشكل 21-8. هيكل المشفر التلقائي 

في الممارسة العملية » يمكن استخدام المشفر التلقائي لتقليل حجم الميزة » على غرار الطرق 
الأخرى » ولكن أداءها أقوى. OY‏ نماذج الشبكة العصبية يمكنها استخراج ميزات جديدة بشكل 
أكثر كفاءة. من الناحية الهيكلية » تتشابه المشفرات التلقائية إلى حد كبير مع شبكات امامية 
التغذية » في أبسط أشكالها » لديهم طبقة إدخال وطبقة مخفية وطبقة إخراج. يتمثل الاختلاف 
الهيكلي الرئيسي مع شبكات امامية التغذية في أن المشفرات التلقائية لها نفس عدد العقد في 
طبقات الإدخال والإخراج الخاصة بها. 

ومع ذلك c‏ فإن الاختلاف الرئيسي بين المشفر التلقائي وشبكة امامية التغذية يكمن في عملية 
التعلم ؛ تستخدم المشفرات التلقائية البيانات غير المسماة بدلاً من البيانات المصنفة. هناك عدة 
أنواع من المشفرات التلقائية. سنصف أولاً الإصدار القياسي ثم ننظر إلى الإصدارات الأخرى. 


أحد التطبيقات الشائعة للمشفر التلقائى هو تقليل الأبعاد. Lo oale‏ تكون أبعاد التمثيل 
ioo‏ أصغر بكثير من أبعاد الإدخال الأصلية . làlg‏ كان المشفر يعمل بشكل 242 | 


فان التمثيل المضمن يعمل كاصدار مضغوط ain‏ من الإصدار الأصلى بأبعاد إدخال أصغر 


المشفر التلقانى القياسى 


المشفر التلقائي القياسي عبارة عن هيكل يتكون من جزأين. الجزء الأول عبارة عن برنامج تشفير 
يتلقى بيانات الإدخال ويتعلم ضغطها للحصول على تشفير (يُعرف Cal‏ باسم الرمز أو التمثيل 
الكامن؟). يمكن القيام بذلك من خلال التعرف على أهم ميزات البيانات. رياضيا » يمكن تمثيل 
رمز الطبقة المخفية والمدخلات ‏ على النحو التالي: 


latent representation 
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h = o(Wx + b) 


التوالى. 
الجزء الثاني هو وحدة فك التشفير التي تستقبل البيانات المشفرة. الغرض من المشفر هو 
إعادة بناء التشفير بطريقة تجعل التكاثر الناتح أقرب ما يمكن إلى بيانات الإدخال المشفرة. Kay‏ 
إعادة ب ير بطري لتكاثر الناتج أقرب ما يمكن إلى بيانات الإ : 
إعادة T x cel‏ هذه الحالة باستخدام 
x = 6(Wh + b)‏ 
WG‏ و b‏ ي معاملات مختلفة لدالة التنشيط ومصفوفة الوزن والتحيز. 


إذا أشرنا إلى المشفر بدالة مثل h = f(x)‏ ووحدة فك التشفير بدالة مثل or = g(h)‏ فيمكن 
عندئذ وصف المشفر بأكمله بدالة g(f G2) = r‏ . حيث OS‏ الإخراج r‏ مشابهًا للمدخل 
الرئيسي ×. الغرض من تدريب المشفر التلقائي هو الحصول على A‏ مفيد يمكن أن يمثل 
"o‏ × بشكل جيد. نموذج المشفر الذاتي المثالي يأخذ في الاعتبار النقاط التالية: 

© إنه حساس i‏ كافية لإدخاله ليكون قادرًا على التكاثر بدقة. 
© إنه ليس حساس بما يكفي للإدخال » بحيث لا يتذكر النموذج ببساطة بيانات التدريب. 
بعبارة أخرى » لا يتناسب AT‏ من اللازم. 

يفرض هذا التوازن على النموذج الاحتفاظ فقط بتغييرات البيانات اللازمة لإعادة إنتاج 
المدخلات دون الحفاظ على التكرار في المدخلات. في معظم الحالات e‏ يتضمن ذلك إنشاء 
دالة خسارة. تستخدم دالة الخسارة لتقييم الفرق بين القيمة المتوقعة للنموذج والقيمة الفعلية ء 
وكلما انخفضت الخسارة . كان أداء النموذج أفضل. يتم تعريف دالة الخسارة للمشفر الذاتي على 
«Lo 9)/ )2:((( vel‏ حيث L‏ هي دالة الخسارة لحساب الفرق بين x‏ و (() (f‏ 9. الهدف 
من التدريب على التشفير الذاتى هو تقليل وظيفة الخسارة (فقدان التكاثر). يمكن تدريب 
الشبكات باستخدام تقنيات الشيكات العميقة القياسية مثل الانتشار الخلفي. 

من خلال تدريب المشفر الذاتي الذي كان أداؤه cm‏ في إعادة إنتاج بيانات الإدخال « deb‏ 
أن يوضح التمثيل العشوائي ۸ بعض الميزات المفيدة في البيانات. لتجنب الحلول غير المهمة 
وتعلم الميزات المفيدة » نحتاج إلى إضافة بعض القيود إلى المشفر الذاتي. 

يمكن استخدام المشفر الذاتي لاستخراج ميزات مفيدة عن طريق إجبار ۸ على أن يكون أصغر 
من ×. يسمى التشفير الذاتي الذي يكون بعده الكامن أقل من بُعد الإدخال بالتشفير الذاتي غير 
الكامل. يؤدي تعلم eta‏ غير الكامل إلى إجبار عامل التشفير على تسجيل أبرز سمات بيانات 
التدريب. بمعنى آخر » التمثيل الكامن ۸ هو تمثيل موزع يحصل على إحداثيات على طول 
العوامل الرئيسية للتغيير في البيانات. هذا مشابه للطريقة التي يتم بها عرض خرائط (تأثيرات) 
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المكونات الرئيسية للتغيير في البيانات. في الواقع 6 إذا كانت هناك iib‏ مخفية خطية وتم 
استخدام معيار متوسط الخطأ التربيعي لتدريب الشبكة . فإن الوحدات المخفية تتعلم تمثيل 
المدخلات في نطاق المكونات الأساسية الأولى. إذا كانت الطبقة المخفية غير خطية « فإن 
المشفر التلقائي يتصرف بشكل مختلف مع PCA‏ ويمكنه تصوير جوانب متعددة الأوجه لتوزيع 
المدخلات. 

خيار آخر هو الحد من ۸ على بعد أكبر من ×. يسمى التشفير الذاتي الذي تكون أبعاده الكامنة 
أكبر من بُعد الإدخال بالتشفير الذاتي الكامل؟. ومع US‏ نظرًا لحجمها الكبير » تميل أجهزة 
التشفير وأجهزة فك التشفير إلى الضبط الزائد. ومن ثم » في مثل هذه الحالات » يمكن حتى 
لجهاز التشفير وفك التشفير الخطي تعلم نسخ المدخلات إلى المخرجات دون تعلم أي تمثيلات 
مفيدة لتوزيع البيانات. لحسن الحظ . لا يزال بإمكاننا اكتشاف بنية مثيرة للاهتمام من خلال 
فرض قيود أخرى على الشبكة. أحد القيود الأكثر استخدامًا هو قيد التشتت في A‏ المشفر التلقائي 
الكامل مع قيد التشتت يسمى المشفر التلقائي الانفرادي”. 
المشفر التلقانى مع ازالة الضوضاء 
المشفر التلقائي لإزالة الضوضاء يختلف عن المشفر التلقائي القياسي. إشارة الإدخال تالفة جزتيًا 
في البداية في المشفر التلقائي لإلغاء الضوضاء ثم تغذيتها إلى الشبكة. يتم تدريب الشبكة بطريقة 
يتم بها استرداد دفق بيانات الإدخال من البيانات السيئة نسبيًا. يسمح هذا للمشفر بفهم البنية 
الأساسية لإشارات الإدخال من أجل إعادة إنتاج متجه الإدخال الأصلي بشكل مناسب o‏ لإعادة 
إنتاج متجه الإدخال الأصلي بشكل كاف. كما ذكرنا Gl‏ . عادة ما تقلل المشفرات التلقائية من 
دالة الخسارة 1. يقلل المشفر التلقائي لازالة الضوضاء من دالة الخسارة التالية: 

L(x, g( ())) 

حيث £ نسخة من AUG x‏ بالضوضاء. تظهر آلية المشفر التلقائي لإزالة الضوضاء في الشكل 8— 
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1 overcomplete autoencoder 


2 
sparse autoencoder 
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الضوضاء 

الشكل 22-8. المشفر التلقائي IGY‏ الضوضاء 


تتم إضافة الضوضاء إلى الإدخال x‏ أثناء التدريب للتأكد من أن المشفر التلقائى يتعلم 


ميزات توزيع البيانات المفيدة. 


المشفر التلقانى الانفرادى 


يمكن للمشر التلقائي الانفرادي تعلم الهياكل القيمة في بيانات الإدخال عن طريق فرض التشتت 
على الوحدات المخفية أثناء التدريب. يمكن تحقيق التشتت بشكل عام عن طريق إضافة تعبيرات 
إضافية (2 ) إلى دالة الخسارة أثناء التدريب أو عن طريق إعادة ضبط جميع الوحدات المخفية 
يدويًا باستثناء بعض الأساسيات.: 


L (x, g(fG2)) +O) 

من خلال معاقبة دالة الخسارة في الطبقات المخفية » يؤدي ذلك إلى تنشيط عدد قليل فقط عند 
إدخال عينة جديدة. الحدس الكامن وراء هذا النهج هو . على سبيل المثال e‏ إذا ادعى المرء 
التخصص في الرياضيات وعلوم الكمبيوتر وعلم النفس والفيزياء والكيمياء o‏ فقد يتعلم المرء 
معرفة سطحية جد بهذه الموضوعات. ومع ذلك » إذا ادعى أنه متخصص فقط في علوم 
الكمبيوتر. فنحن نرغب في الحصول على رؤى مفيدة منه . وينطبق الشيء نفسه على المشفر 
التلقائي الذي نقوم بتدريبه ؛ يضمن عدد أقل من العقد التي لا تزال تحافظ على دوالها عند 
تنشيطها أن المشفر التلقائي ples‏ بالفعل التمثيل المخفي بدلاً من المعلومات الإضافية في 
بيانات الإدخال. 

أحد التطورات في مجال المشفر التلقائي الانفرادي هو المشفر التلقائي k‏ انفرادي. في هذا 
المشفر التلقائي k yes e‏ الخلايا NER,‏ دوال التنشيط الأعلى ess‏ دوال التنشيط 
الأخرى باستخدام دوال تنشيط ReLU‏ وتعيين العتبة للعثور على أكبر الخلايا العصبية. يضبط 
هذه القيمة :/ للحصول على أفضل مستوى مبعثر لمجموعة البيانات. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


alil * de JI‏ انى JI‏ £ سى' 
Ue‏ مجموعات البيانات لها علاقة معقدة بالخصائص. oU‏ لا يكفي استخدام مشفر slab‏ 
واحد فقط. وذلك ON‏ المشفر التلقائي الفردي قد لا يكون GB‏ على تقليل حجم خصائص 
الإدخال. لذلك في مثل هذه الحالات . نستخدم المشفر التلقائي للمكدس. المشفر التلقائي 

المكدسي GS‏ يوحي الاسم » هي مشفرات تلقائية متعددة مكدسة فوق بعضها البعض. 


تقليل الابعاد فى بايثون 
PCA‏ فى بايثون 
مجموعة البيانات 
في حين أن معظم مجموعات البيانات الواقعية مثل الصور والبيانات النصية كبيرة جد » فإننا 
نستخدم مجموعة البيانات الرقمية المكتوبة بخط اليد MNIST‏ للتبسيط. مجموعة بيانات 
1577 عبارة عن مجموعة من pall‏ الرمادية لأرقام مكتوبة بخط اليد بين 0 و 9 تحتوي على 
0 صورة بحجم 28 x‏ 28 بكسل. لذلك ٠‏ تحتوي مجموعة البيانات هذه على 60000 عينة 
بيانات بأبعاد 784. لتقليل الأبعاد في مجموعة البيانات code‏ نستخدم PCA‏ لتقليل أبعاد البيانات 
وعرض البيانات في مساحة الميزات منخفضة الأبعاد. يرسم هذا المثال البيانات مع 784 ميزة 
في مساحة الميزة ثنائية الأبعاد ويوضح النتائج. 
استيراد المكتبات 
In H]: from keras.datasets import mnist, fashion mnist‏ 
import time‏ 
import numpy as np‏ 
import pandas as pd‏ 
from sklearn.decomposition import PCA‏ 
import matplotlib.pyplot as plt‏ 


from matplotlib import colors as mcolors 
import seaborn as sns 


استيراد مجموعة البيانات 
In É: (X train, y. train) , (X test, y test) = mnist.load_data()‏ 


1 Stacked Autoencoder 
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تحضر البيانات 
قم بإنشاء مصفوفة بعدد الصور وعدد البكسل في الصورة وانسخ بيانات train‏ × إلى > 


In [| X= np.zeros((X_train.shape[0], 784)) 
for i in range(X train.shape[0]): 
X[i] = X train[1].flatten() 


بيانات. 


In [4: X= pd.DataFrame(X) 
Y = pd.DataFrame(y. train) 
X = X.sample(frac=0.25, 
random_state=1400).reset_index(drop=True) 
Y = Y.sample(frac=0.25, 
random_state=1400).reset_index(drop=True) 
df= X 


MNIST مجموعة البيانات‎ à PCA استخدام‎ 
In Dk pea = PCA(n components-2) 


pca. results = pca.fit_transform(df.values) 


ينشئ PCA‏ بُعدين . المكون الرئيسي 1 والمكون الرئيسي 2 نضيف مكونين من C PCA‏ 
إلى جنب مع تسمياتهم في إطار البيانات. العلامات مطلوبة للتمثيل المرئي فقط. 


In H]: pea df- pd.DataFrame(data = pca_results 
, columns = ['pca 1', 'pea. 2']) 
pca. df['label'] = Y 


التمثيل المرني 


فى هذه الخطوة . قمنا بتدريب الخوارزمية الخاصة بنا وقمنا ببعض التنبؤات. الآن نريد أن نرى 
مدى دقة خوارزمية لدينا. 


In Dk fig = plt.figure(figsize = (8,8)) 
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15) 
ax.set_ylabel('Principal Component 2', fontsize = 15) 
ax.set_title('2 component PCA’, fontsize = 20) 
targets = [0,1,2,3,4,5,6,7,8,9] 
colors = ['r', 'g', 'b'] 
colors = dict(mcolors.BASE COLORS, 
**mcolors.CSS4 COLORS) 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات py‏ 


In 


[1]: 


colors=['yellow', 'black', 'cyan', 'green', 'blue', 'red', 
'brown','crimson', 'gold', 'indigo'] 
for target, color in zip(targets,colors): 
indicesToKeep = pca df['label'] == target 
ax.scatter(pca_df.loc[indicesToKeep, 'pca. 1'] 
, pea. df.loc[indicesToKeep, 'pca. 2'] 


, € = color 
, s = 50) 
ax.legend(targets) 


ax.grid() 


2 component PCA 
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t-SNE‏ فى بايثون 
استيراد المكتبات 


from sklearn.manifold import TSNE 

from keras.datasets import mnist 

import matplotlib.pyplot as plt 

from mpl toolkits.mplot3d import Axes3D 
import seaborn as sns 

import matplotlib.patheffects as PathEffects 
import numpy as np 

import pandas as pd 
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استيراد مجموعة البيانات 
In É: (X train, y. train) , (X test, y. test) = mnist.load. data()‏ 
تحضير البيانات 
In [4 X-np.zeros((X train.shape[0], 784)‏ 


for i in range(X train.shape[0]): 
X[i] = X train[i].flatten() 


بيانات. 
I KM: X= pd.DataFrame(X)‏ 
Y = pd.DataFrame(y_train)‏ 
X = X.sample(frac=0.80,‏ 
random_state=10).reset_index(drop=True)‏ 
Y = Y.sample(frac=0.80,‏ 
random_state=10).reset_index(drop=True)‏ 
df = X‏ 
df['label'] = Y‏ 
استخدام t-SNE‏ في مجموعة البيانات MNIST‏ 
In Dk — tsne = TSNE(n components-2, verbose=1,‏ 
perplexity=40, n iter-300)‏ 
tsne results — tsne.fit transform(df)‏ 
out [5]: [t-SNE] Computing 121 nearest neighbors...‏ 


[t-SNE] Indexed 48000 samples in 0.026s... 

[t-SNE] Computed neighbors for 48000 samples in 139.468s... 
[t-SNE] Computed conditional probabilities for sample 1000 / 48000 
[t-SNE] Computed conditional probabilities for sample 2000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 3000 / 48000 


[t-SNE] Computed conditional probabilities for sample 4000 / 48000 


[t-SNE] Computed conditional pro 
[t-SNE] Computed conditional pro 


babilities for sample 5000 / 48000 
babilities for sample 6000 / 48000 


[t-SNE] Computed conditional probabilities for sample 7000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 8000 / 48000 


[t-SNE] Computed conditional probabilities for sample 9000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 10000 / 48000 


[t-SNE] Computed conditional probabilities for sample 11000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 12000 / 48000 


[t-SNE] Computed conditional probabilities for sample 13000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 14000 / 48000 


[t-SNE] Computed conditional probabilities for sample 15000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 16000 / 48000 


[t-SNE] Computed conditional probabilities for sample 17000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 18000 / 48000 


[t-SNE] Computed conditional probabilities for sample 19000 / 48000 


[t-SNE] Computed conditional pro 


babilities for sample 20000 / 48000 


[t-SNE] Computed conditional probabilities for sample 21000 / 48000 
[t-SNE] Computed conditional probabilities for sample 22000 / 48000 
[t-SNE] Computed conditional probabilities for sample 23000 / 48000 
[t-SNE] Computed conditional probabilities for sample 24000 / 48000 
[t-SNE] Computed conditional probabilities for sample 25000 / 48000 
[t-SNE] Computed conditional probabilities for sample 26000 / 48000 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In 


[3]: 


tsne-2d-two 


-2 


[t-SNE] Computed conditional probabilities for sample 27000 / 48000 
[t-SNE] Computed conditional probabilities for sample 28000 / 48000 
[t-SNE] Computed conditional probabilities for sample 29000 / 48000 
[t-SNE] Computed conditional probabilities for sample 30000 / 48000 
[t-SNE] Computed conditional probabilities for sample 31000 / 48000 
[t-SNE] Computed conditional probabilities for sample 32000 / 48000 
[t-SNE] Computed conditional probabilities for sample 33000 / 48000 
[t-SNE] Computed conditional probabilities for sample 34000 / 48000 
[t-SNE] Computed conditional probabilities for sample 35000 / 48000 
[t-SNE] Computed conditional probabilities for sample 36000 / 48000 
[t-SNE] Computed conditional probabilities for sample 37000 / 48000 
[t-SNE] Computed conditional probabilities for sample 38000 / 48000 
[t-SNE] Computed conditional probabilities for sample 39000 / 48000 
[t-SNE] Computed conditional probabilities for sample 40000 / 48000 
[t-SNE] Computed conditional probabilities for sample 41000 / 48000 
[t-SNE] Computed conditional probabilities for sample 42000 / 48000 
[t-SNE] Computed conditional probabilities for sample 43000 / 48000 
[t-SNE] Computed conditional probabilities for sample 44000 / 48000 
[t-SNE] Computed conditional probabilities for sample 45000 / 48000 
[t-SNE] Computed conditional probabilities for sample 46000 / 48000 
[t-SNE] Computed conditional probabilities for sample 47000 / 48000 
[t-SNE] Computed conditional probabilities for sample 48000 / 48000 
[t-SNE] Mean sigma: 451.266121 


[t-SNE] KL divergence after 250 iterations with early exaggeration: 95.580673 


[t-SNE] KL divergence after 300 iterations: 4.694413 


df['tsne-2d-one'] = tsne_results[:,0] 
df['tsne-2d-two'] = tsne_results[:,1] 
plt.figure(figsize=(16,10)) 
sns.scatterplot( 
x="tsne-2d-one", y="tsne-2d-two", 
hue=df['label'], 
palette=sns.color_palette("hls", 10), 
data=df, 
legend="full", 
alpha-0.3) 


label 


ووعوووووووهة 
تفريم نس اه صاج ب ص قر 


0 
tsne-2d-one 


التمثيل dos!‏ 
الآن بعد أن أصبح لدينا البعدين الناتج » يمكننا تصورهما عن طريق إنشاء مخطط نقطي للبعدين 
وتلوين كل عينة بالتسمية المقابلة. 
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النماذج الانتاجية 


النماذج المولدة (الانتاجية) هي فئة من نماذج التعلم SY‏ المستخدمة لوصف LAS‏ إنشاء 
البيانات. لتدريب نموذج إنتاجي . نقوم Yal‏ بجمع كميات كبيرة من البيانات في كل منطقة ثم 
نقوم بتدريب نموذج لإنشاء أوإنتاج بيانات من هذا القبيل. بعبارة أخرى i‏ تتمتع النماذج الإنتاجية 
بالقدرة على تعلم إنشاء بيانات مشابهة للبيانات التي نغذيها بها. 

يوجد نوعان أساسيان من النماذج في التعلم الآلي: النماذج الإنتاجية؟ والنماذج التمييزية”. 
يتعلم النموذج المميز PY X)‏ . وهي العلاقة الشرطية بين المتغير الموضوعي Y‏ وميزات X‏ 
وهي طريقة لفرز العلاقة بين المتغيرات. في المقابل » فإن الهدف من النموذج الإنتاجي هو 
وصف الاحتمال الكامل لمجموعة البيانات. بمعنى آخر » إنها طريقة لتعلم أي نوع من توزيع 
البيانات. يُستخدم النموذج الإنتاجي في التعلم SW‏ غير الخاضع للاشراف كوسيلة لوصف 
الظواهر في البيانات وتمكين أجهزة الكمبيوتر من فهم العالم الحقيقي. 

لنفترض أن لدينا مشكلة تعلم خاضعة للإشراف . حيث ;× هي الخصائص المعطاة لنقاط 
البيانات و y;‏ هي العلامات ذات الصلة. إحدى الطرق للتنبؤ ب y‏ هي تعلم الدالة fO‏ من 
(Xi Yi)‏ ؛ بحيث يستقبل X‏ ويعيد 7[ PSV‏ احتمالية كناتج. تندرج هذه النماذج في فئة النماذج 
التمييزية » لأنك تتعلم كيفية التمييز بين X‏ من الفئات المختلفة. تندرج طرق مثل شبكات 
متجهات الدعم والشبكات العصبية وأشجار القرار في هذه الفئة. ومع ذلك . حتى إذا كان 
بإمكانك تصنيف البيانات بدقة شديدة » فليس لديك أي فكرة عن كيفية إنشاء البيانات. 

الطريقة الثانية هي Las‏ إنشاء البيانات وتعلم الدالة (x,y)‏ التي تشير إلى التكوين المحدد 
بواسطة × و y‏ معا. يمكننا بعد ذلك توقع y‏ ل × الجديدة بإيجاد y‏ الذي يزيد الدرجة f Qo y)‏ 
لفهم هذين النموذجين بشكل أفضل » دعونا نعطي مثالاً. تخيل × كصورة و y‏ كحيوان مثل قطة 
في الصورة. يخبرنا الاحتمال المكتوب بالصيغة p(y|x)‏ عن مدى اعتقاد النموذج بوجود قطة › 
بالنظر إلى صورة الإدخال مقارنة بجميع الاحتمالات التي يعرفها عنها. تسمى الخوارزميات التي 
تحاول نمذجة تعيين الاحتمالية مباشرة نماذج تمييزية. من ناحية أخرى e‏ تحاول النماذج 
الإنتاجية تعلم دالة تسمى معامل الاحتمال p(y, x)‏ يمكننا أن نقرأ كيف يعتقد النموذج أن X‏ 
صورة oly‏ هناك قطة Baye yey‏ فيها في نفس الوقت. هذان الاحتمالان مرتبطان ويمكن كتابتهما 
ك pO) = ppl)‏ في هذا الصدد « تشير p(x)‏ إلى مدى احتمالية أن تكون X‏ هي 
مدخلات الصورة. عادة ما يسمى الاحتمال p(x)‏ دالة الكثافة. 


1 Generative models 


? Discriminative models 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


يرجع السبب الرئيسي لتسمية هذه النماذج كمولدات إلى حقيقة أن النموذج يمكنه الوصول 
إلى إمكانية الإدخال والإخراج المتزامن. es‏ على ذلك » يمكننا إنتاج صور للحيوانات عن طريق 
أخذ عينات من أنواع مختلفة من الحيوانات y‏ والصور الجديدة X‏ من (× ,0)7 . ومن ثم » OB‏ 
النماذج المولدة لها ميزة مثيرة للاهتمام على النماذج التمييزية » أي أن لديها القدرة على فهم 
وشرح الهيكل الأساسي لبيانات الإدخال ؛ حتى في حالة عدم توفر علامات. 
بشكل عام . يعلم النموذج المميز Gigo)‏ للتوزيع الشرطى cle. pilo‏ سبيل 
المثال. p(y, x)‏ حيث uiio ga y‏ مستهدف و × عبارة عن مدخلات. فى المقابل . يتعلم 


النموذج الإنتاجى التوزيع المشترك ل p(y, x)‏ ويقال al‏ قادر على إنشاء حالات توزيع 
البيانات. 


إذا كان النموذج قادرًا Ge‏ على إنتاج أمثلة جديدة تتبع ظهور كائنات في العالم الحقيقيء 
فيمكن في الواقع القول إنه تعلم وفهم مفهومًا بدون تدريب. ومن ثم . تندرج هذه المجموعة من 
النماذج في فئة النماذج غير الخاضعة للإشراف (يمكن Cal‏ تضمين النماذج الإنتاجية في فئة 
النماذج الخاضعة للإشراف الذاتي). 

تعمل هذه النماذج بشكل عام على الشبكات العصبية ويمكنها بشكل طبيعي اكتشاف السمات 
المميزة للبيانات. تتلقى الشبكات العصبية هذا الفهم الأساسي لبيانات العالم الحقيقي ثم 
تستخدمه لنمذجة البيانات التي تشبه بيانات العالم الحقيقي. 

الغرض الرئيسي من مجموعة متنوعة من النماذج الإنتاجية هو معرفة التوزيع الفعلي لبيانات 
مجموعة التدريب بحيث يمكن إنشاء نقاط بيانات جديدة مع التعديلات. لكن ليس من الممكن 
للنموذج أن يتعلم التوزيع الدقيق لبياناتناء ولذا فإننا نصمم توزيعًا مشابهًا لتوزيع البيانات الفعلي. 
للقيام بذلك . نستخدم معرفة الشبكة العصبية للتعلم الدالي الذي يمكنه تقريب توزيع النموذج 
إلى التوزيع الفعلي. 


انواع النماذج الانتاجية 


الهدف من إنشاء النماذج الانتاجية هو معرفة دالة BES‏ الاحتمال p(x)‏ تصف BES‏ الاحتمالية 
هذه بشكل فعال سلوك بيانات التدريب لدينا وتمكننا من إنشاء بيانات جديدة عن طريق أخذ 
عينات من التوزيع. من الناحية WES‏ نريد أن يتعلم نموذجنا BUS‏ الاحتمال p(x)‏ التي هي 
نفسها BES‏ البيانات Paata (X)‏ هناك عدة استراتيجيات لتحقيق هذا الهدف. 

يمكن للمجموعة الأولى من النماذج أن تحسب صراحةة دالة p BESI‏ أو تحاول تقريبها. أي 
بعد التدريب» يمكننا إدخال ikä‏ بيانات × في النموذج . ويعطينا النموذج صلاحية نقطة 


1 explicitly 
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البيانات» وهي حاصل ضرب p(x)‏ يشار إلى هذه النماذج على أنها نماذج انتاجية صريحة. 
التدريب على النموذج . يمكننا أخذ عينة من التوزيع الأساسى. 


النماذج المتغيرة الكامنة 


تكمن المشكلة الرئيسية في التعلم SY‏ في تعلم التوزيع الاحتمالي المعقد P(X)‏ مع مجموعة 
محدودة من نقاط البيانات ذات الأبعاد × المستمدة من هذا التوزيع. على سبيل المثال . لمعرفة 
توزيع الاحتمالات على صور القطط . نحتاج إلى تحديد التوزيع الذي يمكنه نمذجة الارتباطات 
المعقدة بين جميع وحدات البكسل التي تشكل كل صورة. النمذجة المباشرة لهذا التوزيع مهمة 

Vy‏ من النمذجة المباشرة P(X)‏ يمكننا تقديم متغير كامن 2 وتعريف التوزيع الشرطي 
p(x|z)‏ للبيانات . وهو ما يسمى تمثيل. في العلاقات الاحتمالية » يمكن تفسير 7 على أنه 
متغير عشوائي مستمر. على سبيل المثال . في صور القطط e‏ يمكن أن تحتوي Z‏ على تمثيل كامن 
لنوع القط أو لونه أو شكله. 

وبالتالي » بوجود 2 » يمكننا تقديم توزيع أمامي (7)2 على المتغيرات الكامنة لحساب التوزيع 
المشترك على المتغيرات المرصودة والكامنة: 

p(x,z) = p(x|z)p(z) 

يتيح L‏ هذا التوزيع المشترك حل توزيع p(X)‏ المعقد بطريقة أبسط. 

للحصول على توزيع البيانات p(x)‏ علينا تهميش المتغيرات الكامنة: 


p(x) = f p(x,z)dz = f p(x, 7 (1-8)‏ 
بالإضافة إلى ذلك » باستخدام نظرية بايز » يمكننا حساب التوزيع اللاحق p(z|x)‏ على النحو 
التالي: 
p(x, z)p(z)‏ | 
pGlx) = E ON (2—8)‏ 


يسمح لنا التوزيع اللاحق باستنتاج المتغيرات الكامنة من المشاهدات. 
بالنظر إلى هذه الفكرة . لدينا الآن المصطلحات الأساسية التالية: 
e‏ التوزيق السابق :p(z)‏ نموذج لسلوك المتغيرات الكامنة. 
e‏ الاحتمالية(7)7[7: يحدد كيفية تعيين المتغيرات الكامنة لنقاط البيانات. 
e‏ التوزيع المشترك pC, Z) = p(x|z)p()‏ الضرب الاحتمالي والسابق ويصف 
نموذجنا بشكل أساسي. 
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e‏ التوزيع DOD Ald!‏ هو توزيع البيانات الأصلية وهو الهدف النهائي للنموذج. 
يخبرنا التوزيع الهامشي عن مدى إمكانية إنشاء نقطة بيانات. 
e‏ التوزيع اللاحق pCI)‏ يصف المتغيرات المخفية التي يمكن إنشاؤها بواسطة نقطة 
SLL‏ محددة. 
لاحظ bil‏ لم نستخد مأي شكل م نأشكال التسمية!/ 
Ly‏ على ذلك» يمكن تعريف مصطلحين آخرين: 
e‏ الانتاج: يشير إلى عملية حساب نقطة البيانات × من المتغير الكامن 2. في الأساس . 
نحن ننتقل من المساحة الكامنة إلى التوزيع الفعلي للبيانات. رياضيا . يتم الإشارة إلى 
هذا بواسطة p(X | Z)‏ 
e‏ الاستدلال: إن عملية العثور على المتغير المخفي 7 هي من نقطة البيانات X‏ وتتم 
صياغتها بواسطة التوزيع اللاحق x)‏ | 2) 7. من الواضح أن الاستدلال هو معكوس 
الإنتاج والعكس صحيح. بصريا » يمكننا النظر في الشكل التالي: 


m 


p(x|z) 


p(z) p(x) 


p(z|x) 
الاستدلال‎ 


هذا هو المكان الذي يجتمع فيه كل شيء. بافتراض Gl‏ نعرف الاحتمال p (x | z)‏ « والسابق 
p )2 | ×(‏ والهوامش p (x)‏ و واللاحق p (Z)‏ يمكننا القيام Ly‏ يلي: 
e‏ الانتاج: لإنشاء نقطة بيانات » يمكننا أخذ عينة Z‏ من p(Z)‏ ثم نقطة البيانات :p(x|z)‏ 


z ~ p(z) 
x ~ p(x|z) 
Z ثم‎ P(X) من‎ × Ee الاستدلال: من ناحية أخرى . لاستنتاج متغير كامن . نقوم بأخذ‎ e 
:p Glx) من‎ 
x ~ p(x) 


z ~ p(z|x) 
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تتمثل ميزة النماذج ذات المتغيرات الكامنة في قدرتها على التعبير عن عملية الإنتاج التي يتم 
من خلالها إنشاء البيانات. بشكل عام » هذا يعني أنه إذا أردنا إنشاء نقطة بيانات جديدة » يجب 
علينا أولاً الحصول على Z ~ 7)2( Xe‏ ثم استخدامها لتجربة ملاحظة جديدة X‏ للتوزيع 
الشرطي ip (x |Z)‏ أثناء القيام بذلك . يمكننا أيضًا تقييم ما إذا كان النموذج يوفر DE‏ جيدا 
لتوزيع بيانات p(X)‏ يمكنك التفكير في المتغيرات الكامنة باعتبارها عنق الزجاجة التي يجب 
أن تمر من خلالها جميع المعلومات اللازمة لإنشاء البيانات. نحن نعلم من الفرضية المتشعبة أن 
البيانات عالية الأبعاد موجودة في المشعبات منخفضة الأبعاد المضمنة في هذا الفضاء عالي 
الأبعاد. هذه المساحة الكامنة تبر الأبعاد السفلية. بعبارات أبسط » المتغيرات الكامنة هي تحويل 
نقاط البيانات إلى مساحة مستمرة ذات أبعاد أقل. حدسيًا . تصف المتغيرات الكامنة البيانات 
بطريقة أبسط. 

لاحظ أن التكامل في المعادلة )8-1( ليس له حل ‘gees‏ لمعظم البيانات التي نتعامل معها 
ويجب Ule‏ استخدام طريقة للاستدلال Go‏ في المعادلة )8-2( 


الاستدلال اللاحق 


يعكس التوزيع اللاحق p(z|x)‏ . وهو مكون رئيسي في الاستدلال الاحتمالية » يعبر عن 
معتقداتنا حول المتغيرات الكامنة بعد ملاحظة نقطة بيانات جديدة. ومع ذلك WE c‏ ما OK‏ 
الأخير غير قابل للحل لبيانات العالم الحقيقي VOY.‏ يوجد حل تحليلي للتكامل في المعادلة 
(8-1) الذي يظهر في مقام المعادلة (2-8). هناك طريقتان لتقريب هذا التوزيع. هناك طريقة 
لأخذ العينات تسمى طريقة سلسلة مونت كارلو ماركوف. ومع ذلك e‏ فإن هذه الأساليب باهظة 
الثمن من الناحية الحسابية ولا تتناسب مع مجموعات البيانات واسعة النطاق. الطريقة الثانية هي 
تقنيات تقريب محددة. Lj‏ هذه ا ei‏ القابل digas idiom‏ 
ا pM M PE ME Hw ndn‏ 
محدود. 


المشفر التلقانى القابل للتغيير 


المشفر التلقائي القابل للتغيير هو إطار عام لتعلم النماذج المتغيرة الكامنة مع الاستدلال المتغير. 
بشكل عام p=‏ المشفر التلقائي القابل للتغيير الشبكات العصبية للنموذج الإنتاجي بالإضافة 


! no analytical solution 


? variational inference 
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لنفترض أنني أعتبر الملاحظات متغيرات عشوائية مستقلة بنفس التوزيع Gid)‏ وافترض أن 
البيانات يتم إنشاؤها بواسطة بعض المتغيرات العشوائية الكامنة 2. من وجهة نظر متغير 
الاستدلال « نفترض أن p(Z)‏ يمكن ترويضها. نحاول بعد ذلك تعظيم الأدلة لنموذج De (X)‏ 
من خلال تقريب التوزيع الكامن المقدر: 
(qo (ZIO lpo (zlx)) + L0, p; x)‏ رط = logpe(x)‏ 
حيث »هو اختلاف Kolbeck-Labler‏ « و هي المعامل القابل للتغيير» و هو المعامل 
الإنتاجى . و L‏ هى الحد الأدنى للمتغير أو الحد الأدنى للملاحظات ELBO)‏ يمكن إعادة 
كتابتها Gay‏ لنظرية بايز: 
x) = -Dri (a Ix)l| pe C2) + Eoi [logo ):12([‏ ;0,9(£ 

عندما نختار وزن الشبكة العصبية كمعامل » فهناك علاقة واضحة بين المعادلة أعلاه ومعاملات 
المشفرات الذاتية القابلة للتغيير. يعمل عنصر اختلاف KL‏ كمنظم على المشفر لتوقع توزيع 
المتغير الكامن المقدر » بينما يقلل العنصر الثاني من خطأ الانتاج تحت المتغير الكامن OS -Z‏ 
النقطة المهمة هي أن المنشور لا يمكن أن يمر عبر الطبقة العشوائية. OY‏ الاشتقاق غير ممكن 
بسبب معاملات المتغير ©. بمعنى آخر . لا يمكن نشر التدرجات للخلف من خلال المتغير 
الكامن iz‏ تنشأ هذه المشكلة OY‏ الناشر لا يمكن أن يتدفق عبر العقد العشوائية ويتوقع الناشر 
قيمًا محددة لتحديد هذه المعاملات. ومن ثم › يقترح إجراء إعادة تحديد المعايير لحل هذه 
المشكلة. أي أننا نعيد تحديد معاملات المتغير الكامن 2 بتحويل مشتق X)‏ 6( مل مع متغير 
ضوضاء إضافي © بالنسبة إلى غاوسي ٠‏ يمكن التعبير عن إعادة ضبط المعاملات على النحو 
التالى: 


Z=utoe, €-NY(0,) 
كخسارة‎ MSE وغالبًا ما يتم استخدام‎ e بشكل تحليلي‎ KL أخيرًا » يمكن حساب اختلاف‎ 
على النحو‎ (VAE) إعادة توليد. لذلك . يتم الحصول على دالة الخسارة للمشفرات التلقائية‎ 
التالي:‎ 
J 


M M 
2,2, + log(o?,) - ij o) + < Ma - Sul 
i=1 i=1 


j=1 


LyAE = 


N| e 


حيث M‏ هو عدد عينات البيانات » f‏ هو بعد البيانات المشفرة . ;× و X;‏ هما المعطيات الرئيسية 
والاستنساخ . على التوالي. رسم تخطيطي للمشفر التلقائي القابل للتغيير في الشكل 122-8 


| لمزيد من المعلومات حول التشفير التلقائي القابل للتغيير. يمكنك الرجوع إلى المرجع التالي: 


ميلاد وزان» يادكيرى عميق: اصول» مفاهيم و رويكردهاء ويرايش نخست» تهران» میعاد اندیشه» ۱۳۹۹ 
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الشكل 22-8. المشفر التلقائي القابل للتغيير. 
المشفر التلقانى القابل للتغيير فى بايتون 


استيراد المكتبات 


import numpy as np 

import matplotlib.pyplot as plt 

import pandas as pd 

import seaborn as sns 

import warnings 

import tensorflow 
tensorflow.compat.v1.disable eager execution() 


استيراد مجموعة البيانات 


from tensorflow.keras.datasets import mnist 
(trainX, trainy), (testX, testy) = mnist.load_data() 


for j in range(5): 
1=np.random.randint(0, 10000) 
plt.subplot(550 + 1 + j) 
plt.imshow(trainX[i], cmap='gray') 
plt.title(trainy[i]) 

plt.show() 


4 0 8 6 8 
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تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In 


In 


تحضير البيانات 


[4]: train, data = trainX.astype('float32')/255 
test data = testX.astype('float32)/255 


train, data = np.reshape(train, data, (60000, 28, 28, 1)) 
test data = np.reshape(test data, (10000, 28, 28, 1)) 


print (train, data.shape, test data.shape) 


[4: (60000, 28, 28, 1) (10000, 28, 28, 1) 


بناء المشفر 

[5]: import tensorflow 

input_data = tensorflow.keras.layers.Input(shape=(28, 28, 1)) 

encoder = tensorflow.keras.layers.Conv2D(64, (5,5), 

activation='relu')(input_data) 

encoder = tensorflow.keras.layers.MaxPooling2D((2,2))(encoder) 

encoder = tensorflow.keras.layers.Conv2D(64, (3,3), 

activation='relu')(encoder) 

encoder = tensorflow.keras.layers.MaxPooling2D((2,2))(encoder) 

encoder = tensorflow.keras.layers.Conv2D(82, (3,3), 

activation='relu')(encoder) 


encoder = tensorflow.keras.layers.MaxPooling2D((2,2))(encoder) 


encoder = tensorflow.keras.layers.Flatten()(encoder) 
encoder = tensorflow.keras.layers. Dense(16)(encoder) 


التوزيع الكامن وأخذ العينات 


هذا القسم مسؤول عن أخذ الميزات الالتفافية من الجزء الأخير وحساب المتوسط والتباين في 
الميزات الكامنة LS)‏ هو مفترض › تتبع الميزات الكامنة التوزيع الطبيعي القياسي ويمكن تمثيل 


In 


[5]: 


التوزيع بالمتوسط والتباين). 


def sample latent, features(distribution): 

distribution mean, distribution variance = distribution 

batch. size = tensorflow.shape(distribution variance)[0] 

random = tensorflow.keras.backend.random, normal(shape-(batch. size, 
tensorflow.shape(distribution variance)[1])) 

return distribution mean + tensorflow.exp(0.5 * distribution variance) * 
random 


distribution mean = tensorflow.keras.layers.Dense(2, name-'mean")(encoder) 
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distribution, variance = tensorflow.keras.layers.Dense(2, 
name='log_variance')(encoder) 


latent_encoding = 
tensorflow.keras.layers.Lambda(sample latent features)([distribution mean, 
distribution variance]) 


هذه الميزات المخفية (المحسوبة من التوزيع المكتسب) تكمل بالفعل مشفر النموذج. يمكن 
الآن تعريف نموذج المشفر على النحو التالي: 


In [5]: encoder model = tensorflow.keras.Model(input data, 
latent encoding) 
encoder model.summary() 


Model: "model" 


Layer (type) Output Shape Param + Connected to 

(input 1 (Inputlayer) None; 28, 28, D] © OOO 
conv2d (Conv2D) (None, 24, 24, 64) 1664 ['ànput 1[0][0]'] 
max pooling2d (MaxPooling2D) (None, 12, 12, 64) 0 ['conv2d[0] [0] '] 
conv2d 1 (Conv2D) (None, 10, 10, 64) 36928 ['max pooling2d[0][01'] 
max pooling2d 1 (MaxPooling2D) (None, 5, 5, 64) 0 ['conv2d 1[0]1[01'] 
conv2d 2 (Conv2D) (None, 3, 3, 32) 18464 ['max pooling2d 1[0][O0]'] 
max pooling2d 2 (MaxPooling2D) (None, 1, 1, 32) 0 ['conv2d 2[0]1[01'] 
flatten (Flatten) (None, 32) 0 ['max pooling2d 2[0][90]'] 
dense (Dense) (None, 16) 528 ['flatten[0][0]'] 
mean (Dense) (None, 2) 34 ['dense[0] [0]'] 
log variance (Dense) (None, 2) 34 ['dense[0] [0] '] 
lambda (Lambda) (None, 2) 0 ['mean[9] [0] ' , 


'log variance [0] [0]'] 


Total params: 57,652 
Trainable params: 57,652 
Non-trainable params: 0 


المشفر بسيط LLU‏ ويحتوي فقط على حوالي 57000 معامل قابلة للتدريب. 
التوزيع الكامن وأخذ العينات 


يأخذ جزء المشفر من النموذج صورة كمدخل ومتجه المشفر الكامن كإخراج . والذي يتم أخذ 
عينات من التوزيع المكتسب لمجموعة بيانات الإدخال. تتمثل مهمة وحدة فك التشفير في أخذ 
هذا المتجه المضمن كمدخل وإعادة إنشاء الصورة الأصلية (أو صورة تنتمي إلى نفس 23 الصورة 
الأصلية). نظرًا OY‏ المتجه المضمن هو تمثيل موجز جد للخصائص . فإن مفكك الشفرة يتكون 
من عدة أزوا اج من طبقات Deconvolutional‏ وطبقات Deconvolutional à» .upsampling‏ 
تعكس GLI‏ ما تفعله الطبقة الالتفافية. تستخدم طبقات upsampling‏ لاستعادة الدقة الأصلية 
للصورة. بهذه الطريقة c‏ يعيد بناء الصورة بالأبعاد الأصلية. 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


In [65]: decoder input = tensorflow.keras.layers.Input(shape-(2)) 
decoder = tensorflow.keras.layers.Dense(64)(decoder input) 
decoder = tensorflow.keras.layers.Reshape((1, 1, 64)) (decoder) 
decoder = tensorflow.keras.layers.Conv2DTranspose(64, (3,3), 
activation-'relu") (decoder) 


decoder = tensorflow.keras.layers.Conv2DTranspose(64, (3,3), 
activation-'relu") (decoder) 
decoder = tensorflow.keras.layers. UpSampling2D((2,2)) (decoder) 


decoder = tensorflow.keras.layers.Conv2DTranspose(64, (3,3), 
activation-'relu") (decoder) 
decoder = tensorflow.keras.layers. UpSampling2D((2,2)) (decoder) 


decoder output = tensorflow.keras.layers.Conv2D Transpose(1, (5,5), 
activation-'relu") (decoder) 


يمكن تعريف نموذج فك التشفير على النحو التالي: 


In [5]: decoder model = tensorflow.keras.Model(decoder input, 
decoder output) 
decoder model.summary() 


Model: "model 1" 


Layer (type) Output Shape Param + 
input_2 (InputLayer) [(None, 2)] o 
dense_1 (Dense) (None, 64) 192 
reshape (Reshape) (None, 1, 1, 64) 0 
conv2d transpose (Conv2DTra (None, 3, 3, 64) 36928 
nspose) 

conv2d transpose 1 (Conv2DT (None, 5, 5, 64) 36928 
ranspose) 

up sampling2d (UpSampling2D (None, 10, 10, 64) 0 

) 

conv2d transpose 2 (Conv2DT (None, 12, 12, 64) 36928 
ranspose) 

up sampling2d 1 (UpSampling (None, 24, 24, 64) o 
2D) 

conv2d_transpose_3 (Conv2DT (None, 28, 28, 1) 1601 
ranspose) 


Total params: 112,577 
Trainable params: 112,577 
Non-trainable params: 0 


بناء المشفر التلقائي القابل للتغيير 


أخيرًا > يمكن تعريف المشفر التلقائي القابل للتغيير من خلال الجمع بين أقسام التشفير وفك 
التشفير. 


In [5]: encoded = encoder model(input data) 
decoded = decoder model(encoded) 
autoencoder = tensorflow.keras.models.Model(input data, decoded) 


autoencoder.summary() 
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Model: "model 2" 


Layer (type) 


input 1 (InputLayer) [(None, 28, 28, 1)] 0 
model (Functional) (None, 2) 57652 
model 1 (Functional) (None, 28, 28, 1) 112577 


Total params: 170,229 
Trainable params: 170,229 


Non-trainable params: 0 


دالة الخسارة 
In [5]: def get, loss(distribution mean, distribution variance):‏ 


def get, reconstruction, loss(y. true, y. pred): 
reconstruction loss = tensorflow.keras.losses.mse(y. true, y pred) 
reconstruction loss batch = tensorflow.reduce mean(reconstruction, loss) 
return reconstruction loss batch*28*28 


def get kl loss(distribution mean, distribution, variance): 
kl loss = 1 + distribution variance - 
tensorflow.square(distribution mean) - 
tensorflow.exp(distribution variance) 
kl loss batch = tensorflow.reduce mean(kl loss) 
return kl loss batch*(-0.5) 


def total loss(y. true, y. pred): 
reconstruction, loss batch — get reconstruction loss(y. true, y. pred) 
kl loss batch = get. kl loss(distribution mean, distribution variance) 
return reconstruction loss batch + kl loss batch 


return total loss 


أخيرًا e‏ النموذج جاهز للتدريب: 


In [5]: autoencoder.compile(loss-get loss(distribution mean, 
distribution, variance), optimizer='adam') 


تدريب النموذج 


In [5]: autoencoder.fit(train, data, train. data, epochs-20, batch, size-64, 
validation, data-(test data, test data)) 
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Epoch 7/20 


60000/60000 [==============================] - 21s 342us/sample - loss: 34.7669 - val loss: 34.9932 
Epoch 8/20 

60000/60000 340us/sample - loss: 34.5290 - val loss: 34.4761 
Epoch 9/20 

60000/60000 342us/sample - loss: 34.3419 - val loss: 34.1162 
Epoch 10/20 a 

60000/60000 344us/sample - loss: 34.1046 - val loss: 33.9851 
Epoch 11/20 7 

60000/60000 342us/sample - loss: 33.9861 - val loss: 33.8626 
Epoch 12/20 5 

60000/60000 341us/sample - loss: 33.8211 - val loss: 33.9228 
Epoch 13/20 z 

60000/60000 343us/sample - loss: 33.6959 - val loss: 34.0816 
Epoch 14/20 

60000/60000 342us/sample - loss: 33.6299 - val loss: 33.8098 
Epoch 15/20 

60000/60000 341us/sample - loss: 33.4760 - val loss: 33.9145 
Epoch 16/20 

60000/60000 339us/sample - loss: 33.3355 - val loss: 33.6437 
Epoch 17/20 

60000/60000 343us/sample - loss: 33.3159 - val loss: 33.6046 
Epoch 18/20 

60000/60000 343us/sample - loss: 33.1844 - val loss: 33.4338 
Epoch 19/20 

60000/60000 341us/sample - loss: 33.1549 - val loss: 33.4451 
Epoch 20/20 d 

60000/60000 340us/sample - loss: 33.0717 - val loss: 33.5015 


النتائج 


في هذا القسم » سنرى إمكانيات إعادة إنتاج نموذجنا على صور الاختبار. يختار الكود التالي 9 
صور من مجموعة البيانات التجريبية ونرسم الصور المعاد بناؤها ذات الصلة بهم. 


In [5]: offset-400 
print ("Real Test Images") 
# Real Images 
for iin range(9): 
plt.subplot(330 + 1 + i) 
plt.imshow(test_data[itoffset,:,:, -1], cmap='gray') 
plt.show() 


# Reconstructed Images 
print ("Reconstructed Images with Variational Autoencoder") 
for iin range(9): 
plt.subplot(330 + 1 + i) 
output = autoencoder.predict(np.array((test_data[it+offset]])) 
op image = np.reshape(output[0]*255, (28, 28)) 
plt.imshow(op. image, cmap='gray') 
plt.show() 
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تظهر النتائج أعلاه أن النموذج قادر على إعادة بناء الصور الرقمية بالأداء المناسب. ومع ذلك » ob‏ 
النقطة المهمة التى يجب ملاحظتها هنا هى أن بعض الصور المعاد بناؤها مختلفة جد فى المظهر 
عن الصور الأصلية. هذا oY‏ إعادة البناء لا تعتمد فقط على صورة الإدخال » ولكن CA‏ على التوزيع 
الذي تم تعلمه. ممتع › IY‏ 

الشيء الثاني الذي يجب ملاحظته هنا هو أن الصور الناتجة ضبابية بعض الشيء. هذا أمر شائع في 
المشفرين التلقائيين القابلين للتغيير » وغالبًا ما ينتجون مخرجات صاخبة (أو ذات جودة رديئة) OY‏ 
المتجهات الكامنة صغيرة جدًا. المشفرات التلقائية المتغيرة ليست مصممة في الواقع لإعادة بناء 
opal‏ والغرض الحقيقي منها هو التعلم عن طريق التوزيع e‏ والذي يمنحها قوة هاتلة لإنتاج بيانات 
مزيفة. 
مجموعات الميزات الكامنة 


كما ذكرنا سابقا ء تتعلم المشفرات التلقائية المتغيرة التوزيع الأساسي للميزات الكامنة » وهو ما 
يعنى أساسًا أن الترميزات الكامنة للحالات التى تنتمى إلى فئة لا ينبغى أن تكون بعيدة جد فى 
المساحة الكامنة. 


In [5]: 


for iin range(10000): 
z.append(testy[i]) 
op = encoder model.predict(np.array([test data[i]])) 
x.append(op [0][0]) 
y.append(op[0][1]) 
df = pd.DataFrame() 
df['x'] = x 
dfly'] =y 
df['z'] = ["digit-"+str(k) for k in z] 


plt.figure(figsize=(8, 6)) 
sns.scatterplot(x='x', y='y', hue='z', data=df) 
plt.show() 
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يوضح الرسم البياني أعلاه أن تضمين نفس الأشكال في المساحة الكامنة يكون أقرب. هذا تقريبًا 
ما أردنا الحصول عليه من المشفرات التلقائية المتغيرة. لننتقل إلى النهاية > حيث نختبر القدرات 
الإنتاجية لنموذجنا. 


توليد الصور المزيفة 

يوضح القسم السابق أن الترميزات الكامنة لبيانات الإدخال تتبع التوزيع الطبيعي القياسي 
والحدود الواضحة مرئية لفئات مختلفة من الأرقام. ومن ثم e‏ فإن النموذج يعرف أي جزء من 
الفضاء ينتمي إلى أي 23 هذا يعني أنه يمكننا بالفعل إنتاج صور رقمية بخصائص مماثلة 
لمجموعة بيانات التدريب عن طريق تمرير نقاط عشوائية عبر الفضاء (مساحة التوزيع الكامنة). 
نتيجة لذلك e‏ يمكن استخدام المشفرات التلقائية المتغيرة كنماذج إنتاجية لإنشاء بيانات مزيفة. 


In [5]: generator model = decoder model 

x values = np.linspace(-3, 3, 30) 

y. values = np.linspace(-3, 3, 30) 

figure = np.zeros((28 * 30, 28 * 30)) 

for ix, x in enumerate(x. values): 

for iy, y in enumerate(y. values): 

latent point = np.array([[x, y]]) 
generated image — generator model.predict(latent point)[0] 
figure[ix* 28:(ix+1)*28, iy*28:(iy+1)*28,] = 

generated_image[:,:,-1] 


plt.figure(figsize=(15, 15)) 
plt.imshow(figure, cmap-'gray', extent=[3,-3,3,-3]) 
plt.show() 
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يمكنك العثور على جميع الأرقام (من 0 إلى 9) في مصفوفة الصورة أعلاه WY‏ حاولنا إنتاج 
صور من جميع أجزاء المساحة الكامنة. 


شبكة الخصومة التوليدية ' (GANS)‏ 


تعد شبكات الخصومة التوليدية (GANS)‏ واحدة من أقوى نماذج المولدات. هناك مكونان لبنية 
شبكة GAN‏ . مسافات التمثيل D‏ و G‏ التي يجب أخذها في الاعتبار. يمكن فصل هذين 
المكونين عن طريق شبكتين عصبيتين. أحدهما هو الفاصل D‏ والآخر هو المولد 6. إنهم 
يتصرفون مثل لعبة ثنائية اللاعبين لتحسين بعضهم البعض خلال لعبة تنافسية. يحاول (1 التمييز 
بين الصور المزيفة التي تنتجها G‏ من الصور الحقيقية c‏ بينما يحاول G‏ إنتاج المزيد من الصور 
المشابهة pal‏ الحقيقية للتشويش على D‏ أخيرًا » ينتج G‏ المدرب صورًا واقعية. 

مدخلات المولد عبارة عن بعض الضوضاء العشوائية المأخوذة من الفضاء الكامن › 
ومخرجاتها عبارة عن صورة X‏ من المفترض أن تقدر الصور في مساحة البيانات الأصلية. افترض 
أن z‏ هو متغير عشوائي مأخوذ من Dz (Z)‏ و Og‏ من معاملات التوليد 6. Gis‏ لذلك » يمكن 
تمثيل خروج المولد على أنه Og)‏ :2) 6. يبذل المولد G‏ قصارى oder‏ لإنتاج صورة حقيقية 
بحيث يمكنه خداع الفاصل 1. في هذه الأثناء . يعمل الكاشف (الفاصل) D‏ كمصنف ثنائي 
يأخذ الصور الأصلية (×) ومخرج G(Z; Og)‏ كمدخلات. بعد ذلك » يحاول الفاصل D‏ المزود 
بالمعاملات Og‏ التمييز بين الصور الأصلية والصورة المزيفة. الهدف من شبكة الخصومة 
التوليدية هو رياضيا على النحو التالي: 


1 5 i 
Generative adversarial networks 
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ming maxpL(D, G) = E, لاو ماو‎ (x, 04) + Ez~pzylog (1 — D(G(z; 0z))) 


في المعادلة أعلاه « p, (x)‏ هو توزيع البيانات الحقيقية و pax)‏ هو توزيع البيانات التي تم 
إنشاؤها بواسطة المولد. 

يمكن للكاشف D‏ التعرف بسهولة على الصور الحقيقية والمزيفة فى المراحل الأولى من 
التدريب. ومن ثم « فإن ))62 log (1 — D(G(z;‏ مشبع. عمليًا » يمكننا استيدال log G(z; 0z)‏ 
بدلاً من تصغير log (1 - D(G(z;62))‏ يظهر إطار شبكات الخصومة التوليدية في الشكل 8- 
24. 


الشكل 24-8. شبكة الخصومة التوليدية. 


lantal‏ لفصل الثامن 

" يتألق التعلم غير الخاضع للإشراف للمشكلات التي تكون فيها الأنماط غير معروفة › أو 
تتغير باستمرار » أو التي ليس لدينا مجموعات بيانات مصنفة كافية لها. 

" يجعل التعلم غير الإشرافي المشكلات غير القابلة للحل Le‏ أكثر قابلية للحل وأكثر 
مرونة في العثور على أنماط مخفية ف يكل من البيانات السابقة المتاحة للتدريب والبيانات 
المستقبلية. 

LEE مع التعلم غير الخاضع للإشراف » يمكن تسمية العينات غير المسماة‎ m 

" المجموعات هى المناطق التى تكون فيها كثافة نقاط البيانات المتشابهة عالية. 

ف الج (es dI)‏ هر هة كدي do pene‏ من CLES‏ حيبت تكن iU‏ 
في مجموعة (تسمى الكلاستر او العنقود) أكثر BLS‏ مع بعضها البعض من 
المجموعات الأخرى (العناقيد). 
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يمكن استخدام التجميع بمفرده لتحديد البنية الجوهرية للبيانات » في حين أنه يمكن 
Cal‏ أن يكون بمثابة تقنية معالجة مسبقة لمهام التعلم الأخرى مثل التصنيف. 

الغرض من التجميع وصفي والغرض من التصنيف تنبتي. 

تستخدم العديد من طرق التجميع معايير المسافة لتحديد التشابه أو الاختلاف بين كل 
زوج من الكائنات. 

تجميع النموذج الأولي هو عائلة من خوارزميات التجميع التي تفترض أن بنية التجميع 
يمكن تمثيلها بواسطة مجموعة من النماذج الأولية. 

تتبنى خوارزمية k-mean‏ استراتيجية جشعة وتعتمد طريقة تحسين تكرارية للعثور على 
الحل التقريبي. 

تتمثل إحدى نقاط القوة في تجميع نموذج غاوسي المختلط في أنه طريقة تجميع ناعمة. 
النموذج المختلط غاوسي هو ببساطة نموذج يناسب توزيعات غاوسيان المتعددة في 
مجموعة من البيانات. 

يمثل كل غاوسي في النموذج المختلط مجموعة محتملة. 

المجموعات الهرمية لها نهج مختلف . وكما يوحي اسمها » فإن التسلسل الهرمي يطور 
مجموعات فى شكل أشجار. 

نهج التجميع القائم على الكثافة هو طريقة قادرة على إيجاد مجموعات من الشكل 
المطلوب . وكما يوحي اسمها » تستخدم BES‏ العينة لتعيين عضوية المجموعة. 

تقوم خوارزميات التجميع المستندة إلى الكثافة بتقييم العلاقة بين العينات من منظور 
الكثافة وتوسيع المجموعات عن طريق إضافة عينات ذات صلة. 

على عكس العديد من خوارزميات التجميع التقليدية الأخرى » فإن خوارزميات التجميع 
القائمة على الكثافة لديها القدرة على التعامل مع الحالات البعيدة. 

DBSCAN‏ هي خوارزمية تجميع تعتمد على BES‏ تحدد BLS‏ توزيعات العينة مع 
زوج من معاملات "الجوار" H‏ ,ع. 

ستحصل على أقصى استفادة من التجميع عندما تستخدم التجميع ليس كنموذج قائم 
بذاته « ولكن كجزء من إستراتيجية أوسع لاكتشاف البيانات. 

يعد تجنب الضبط الزائد هو الدافع الرئيسي لتقليل الأبعاد. 

تعني الأبعاد الأقل في البيانات وقت تدريب أقل وموارد حسابية أقل. 

تقليل الأبعاد مفيدة جد للتمثيل المرئى للبيانات. 

يزيل تقليل الابعاد الضوضاء في m‏ 

يحاول نهج اختيار الميزة تحديد مجموعة فرعية من الميزات المهمة وإزالة الميزات غير 
المهمة. 

يحاول اختيار الميزة إنشاء مساحة فرعية جديدة للسمة. 


420 تعلم UY!‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 
تعلم = 5 هيم والخوارزمي 


" الفكرة الرئيسية وراء استخراج الميزات هي ضغط البيانات بهدف الحفاظ على المزيد 
من المعلومات ذات الصلة. 

m‏ المشفرات التلقائية عبارة عن شبكات عصبية تستخدم لتقليل الأبعاد. 

s‏ تتكون المشفرات التلقائية من جزأين من الشبكة العصبية c‏ المشفر وجهاز فك التشفير. 
m‏ النماذج الإنتاجية (التوليدية) هي فئة من نماذج التعلم JY‏ المستخدمة لوصف كيفية 
إنشاء البيانات. 

" الغرض من النموذج التوليدي هو الوصف الكامل لمجموعة البيانات الممكنة. 


إمصادر إضافية لمزيد من القراءة 
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ما هو التعلم الجماعى وما هى فوائده؟ 
" التعرف على التعلم مدى الحياة وعلاقته بالطرق الأخرى. 
" ما هو التعلم المعزز؟ 
" خوارزميات التعلم المعزز. 
= التعلم بالمحاكاة واختلافه عن التعلم المعزز. 
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في كثير من الحالات عندما نحتاج إلى اتخاذ قرارات مهمة . فمن طبيعتنا طلب مساعدة خبير 
للمساعدة في اتخاذ القرار. في معظم الحالات . نتقدم خطوة أخرى ونبحث عن وجهات النظر 
الثانية والثالثة أيضًا. هذا WY‏ نعتقد أنه لا يمكن لأحد بمفرده أن يكون لديه معرفة كاملة بموضوع 
صعب من الناحية الموضوعية (على سبيل المثال .التشخيص الطبي). بالنظر إلى عدد من 
«Jal pal‏ فإننا نزن ونجمع بشكل بديهي التوصيات التي نتلقاها لمعرفة قرارنا النهائي. نستخدم 
كل هذه القرارات لأننا نتوقع منها أن تكون أفضل من القرارات التي نتخذها. 

على الرغم من مهاراتنا في حل المشكلات Ye‏ يزال البشر يستفيدون من استشارة مصادر 
متعددة. لذلك e‏ من الطبيعي أن يكون مجال التعلم الآلي مستوحى من هذه العادة البشرية . عندما 
يبحثون عن طرق لتحسين نماذجهم. يُعرف مجال التعلم الآلي الذي يتضمن إجراءات لتحسين 
أداء النموذج من خلال تدريب نماذج وطرق متعددة للجمع بين مخرجاتها باسم التعلم الجماعي. 
بعبارات أبسط o‏ التعلم الجماعي هو فن استخدام نماذج متعددة لتحقيق أداء تنبؤي أفضل. 

الفرضية الأساسية وراء النماذج الجماعية هي أن مجموعة من المتعلمين الضعفاء يجتمعون 
لمساعدة بعضهم البعض في تكوين متعلم قوي. الحدس الكامن وراء النمذجة الجماعية مرادف 
لما اعتدنا عليه فى حياتنا اليومية » مثل طلب المشورة من العديد من الخبراء قبل اتخاذ قرار معين 
لتقلبل اسقمالية SU‏ قرارسيء أن eei e‏ يظهر الننيتاريو الذي يكم A‏ تكرين ie pets‏ 
مفيدة في الشكل 1-9. في هذا المثال » نقوم بتدريب 5 نماذج على نفس بيانات التدريب » كل 
نموذج يصوت لفئة الصورة . وتتوقع المجموعة الفئة الذي حصل على أكبر عدد من الأصوات. 
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الشكل 1-9. مثال عن التعلم الجماعي‎ 
مثالي. جميعهم لديهم قيود ويرتكبون أخطاء ؛ مثلما قد يطلب‎ SW لا يوجد نموذج للتعلم‎ 
الإنسان مشورة العديد من الخبراء قبل اتخاذ قرار صعب. وقد ثبت أيضًا أن مجموعة التنبؤات‎ 


لعدة نماذج توفر تنبؤات أكثر دقة. حددت العديد من الدراسات النظرية والتجريبية المواقف التي 


1 Ensemble learning 
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تكون فيها أنظمة المجموعة مفيدة. بشكل عام » هناك BIE‏ أسباب تجعل التعلم الجماعي ينتج 
نتائج أفضل من المتعلم الفردي: 

1. بيانات تدريبية محدودة: بالنسبة للمشكلات المعقدة . قد لا توفر البيانات معلومات 
كافية لجميع خصائص البيانات المحتملة التي قد يواجهها المتعلم. وبالتالي» من غير 
المرجح أن تعمل فرضية واحدة لمجموعة بيانات محدودة بسبب عدم كفاية 
المعلومات لمجموعة بيانات أخرى. في البيانات التدريبية » من خلال الجمع بين 
فرضيات المتعلمين . هناك فرصة أكبر في أن يتمكن المتعلم الجماعي من إدارة 
البيانات ذات الخصائص غير المعروفة بنجاح. 

2. التعويض عن عمليات البحث غير المكتملة: قد تكون عمليات البحث الخاصة 
بخوارزميات التعلم غير مكتملة. وبالتالي » حتى لو كانت هناك فرضية مثالية فريدة » 
فقد لا يتم العثور عليها Ll‏ يمكن أن يساعد التعلم الجماعي في تعويض عمليات 
البحث المعيبة هذه. 

3. لا توجد فرضية واحدة تناسب الجميع: قد لا تحتوي مساحة البحث لمجموعة بيانات 
معينة على فرضية مثالية واحدة. ومن ثم يمكن أن يوفر التعلم الجماعي تقديرات 
تقريبية جيدة من خلال الجمع بين فرضيات متعددة. 


هناك التعلم العميق. لماذا التعلم الجماعى IS‏ 


أدت التطورات الحسابية والمنهجية الحديثة فيما يعرف بالتعلم العميق إلى تغيير الفائدة 
المتصورة لأساليب التعلم الجماعي. من خلال البنية الملائمة وتعديل المعاملات» يمكن 
للشبكات العصبية العميقة أداء وظيفة شبه مثاليةفي مجموعة واسعة من مجموعات البيانات. 
بالإضافة إلى US‏ تتوفر العديد من التدابير التنظيمية لضمان تقارب هذه النماذج المعقدة دون 
حدوث الضبط الزائد. 

إذن مع هذا الأداء المذهل للتعلم العميقء هل ما زالت الأساليب الجماعية تلعب دورًا مفيدا؟! 
Aol‏ التدريب على الشبكات العصبية العميقة له تكلفة حسابية عالية. Le Gab‏ يكون الإعداد 
الشامل للمعاملات لهذه النماذج ممكتًا بسبب نقص الموارد الحسابية. ومع ذلك فإن العثور 
على البنية المناسبة لإنتاج نماذج ذات ehl‏ تنبؤي Sle‏ أمر ضروري.في المقابل؛ يمكن لنظام 
المجموعة أن ينتج نفس أداء التنبؤ مثل هذه النماذج الفردية» ولكن دون ASS‏ تكاليف حسابية 
ممائلة. قد يبدو الأمر بديهيًا للوهلة الأولى: oY‏ العديد من النماذج تحتاج Gad‏ إلى التدريب 
لإنتاج مجموعة! ومع ذلك يمكن أن تكون النماذج الفردية أقل cies‏ (طبقات (fol‏ مما يسمح 
باستكشاف أفضل لمساحة المصنففي نفس الميزانية الحسابية. بالإضافة إلى AUS‏ يمكن اعتبار 
العديد من هذه الإعداداتني نظام المجموعة النهائي (بدلاً من اختيار أفضل نموذج). 
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6( لا تمنع الأساليب التنظيمية GLS‏ الضبط الزائد. HUY‏ فإن الجمع بين النماذج التي لم 
تتقارب. أو التي تعاني من مشكلة الضبط الزائد للبيانات» يمكن أن ينتج نماذج أفضل دون إعادة 
التدريب. أخيرًاء عند استكشاف مجموعات البياناتفي العالم الحقيقيء يلاحظني العديد من 
المسابقات أن أنظمة المجموعة تنتج أفضل النتائج. 

بينما حققت الشبكات العصبية العميقة elo‏ قريبًا من البشر في بعض المهام « فإن الحقيقة 
هي أن هذه النماذج عالية التخصص. ومن ثم c‏ فإن استخدام الشبكة العصبية التي يمكن أن تكون 
دقيقة للغاية عند التمييز بين صور القطط والكلاب وتطبيقها على مشكلة مختلفة ولكنها ذات 
abe‏ (على سبيل المثال » تحديد الفتات المتشابهة Fly‏ على عينات الفيديو) يؤدي إلى أداء 
ضعيف للغاية. لا يتعلق الأمر بموضوع شائع جد . قضية الغداء المجاني (تمت مناقشته (GL‏ 
لن يعمل نموذج واحد للتعلم الآلي بشكل أفضل على جميع أنواع البيانات ومجموعات البيانات. 
هذا يدل على أن مجموعة من النماذج عالية التخصص هي أفضل حل لهذه المشكلة. 


تقنيات التعلم الجماعى 


التعلم الجماعي هو نموذج للتعلم الآلي يتم فيه تدريب العديد من النماذج © والتي يشار إليها 
OU‏ باسم "المتعلمين الفقراء" . على حل مشكلة والجمع لتحقيق نتائج أفضل. الفرضية الرئيسية 
هي أنه عندما يتم الجمع بين النماذج الضعيفة بشكل صحيح e‏ يمكننا الحصول على نماذج أكثر 
دقة / أقوى. 

في نظرية التعلم الجماعي . نسمي نماذج المتعلمين الضعفاء sl)‏ النماذج الأساسية) التي 
يمكن استخدامها ككتل لتصميم نماذج أكثر HES‏ من خلال الجمع بين عدة نماذج. في كثير 
من الأحيان Ye‏ تعمل هذه النماذج الأساسية بشكل جيد بمفردها نظرًا لارتفاع درجة تحيزها أو 
تباينها. ومن ثم » ob‏ فكرة الأساليب الجماعية هي محاولة تقليل التحيز أو التباين لدى هؤلاء 
المتعلمين الضعفاء من خلال الجمع بين العديد منهم لإنشاء متعلم قوي (أو نموذج جماعي) 
يحقق أداءً أفضل. 

لإنشاء نموذج تعليمي جماعي » يجب علينا أولاً تحديد نماذجنا الأساسية للتجميع. في أغلب 
الأحيان » يتم استخدام خوارزمية التعلم الأساسية للحصول على متعلمين ضعفاء متجانسين تم 
تدريبهم بطرق مختلفة. تسمى هذه الأنواع من النماذج "متجانسة". ومع ذلك . هناك طرق 
تستخدم El pl‏ مختلفة من خوارزميات التعلم الأساسية. يتم بعد ذلك دمج بعض المتعلمين غير 
المتجانسين بشكل ضعيف في 'نموذج مجموعة غير متجانس . 

نقطة مهمة هي أن اختيار المتعلمين الضعفاء يجب أن يكون oa‏ مع طريقة تجميع هذه 
النماذج. إذا اخترنا النماذج الأساسية ذات التحيز المنخفض ولكن التباين العالي » فيجب أن 
يكون ذلك مع طريقة التجميع التي تميل إلى تقليل التباين c‏ بينما إذا اخترنا النماذج الأساسية 
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ذات التباين المنخفض ولكن التحيز العالي » فيجب أن تكون بالطريقة التراكمية التي تميل إلى 
تقليل له تحيز. 

هناك العديد من التقنيات الجماعية للجمع بين متعلمي الآلة المتعددين لإنشاء نموذج تنبؤي. 
الأساليب الأكثر شيوعًا هي: التجميع" لتقليل التباين التعزيزة لتقليل التحيز. 
التعزيز (بوستينك) 


التعزيز عبارة عن مجموعة من الخوارزميات التي تحول المتعلمين الضعفاء إلى متعلمين أقوياء. 
تبدأ خوارزمية التعزيز بتدريب متعلم أساسي واحد ثم تعدل توزيع عينات التدريب à p‏ لنتيجة 
المتعلم الأساسي بحيث تكون ole‏ التصنيف غير الصحيحة أكثر وضوحًا للمتعلمين 
الأساسيين التاليين. بعد تدريب المتعلم الأساسي الأول » يتم تدريب المتعلم الأساسي الثاني على 
عينات تدريب معدلة ويتم استخدام النتيجة لإعادة ضبط توزيع عينة التدريب. تتكرر هذه العملية 
حتى يصل عدد المتعلمين الأساسيين إلى القيمة المحددة مسبقا T‏ و في نهاية المطاف يصبح 
هؤلاء المتعلمون أساس الوزن والتعزيز. 

خوارزمية التعزيز الأكثر شهرة هي AdaBoost‏ « والتي تعمل على تحسين خوارزمية التعزيز 
البسيطة من خلال عملية تكرارية. الفكرة الرئيسية وراء هذه الخوارزمية هي التركيز أكثر على 
الأنماط التي يصعب تصنيفها. يتم تحديد مقدار التركيز من خلال الوزن المخصص لكل نمط 
في مجموعة التدريب. في البداية » يتم تعيين نفس الوزن لجميع الأنماط. مع كل تكرار c‏ يزداد 
وزن جميع عينات التصنيف غير الصحيحة بينما ينخفض وزن عينات التصنيف الصحيحة. 
نتيجة لذلك e‏ يضطر المتعلم الفقير إلى التركيز على الأمثلة الصعبة للمجموعة التدريبية عن طريق 
إجراء عمليات تكرار إضافية وإنشاء المزيد من الفتات. بالإضافة إلى ذلك . يتم تعيين الوزن لكل 
فئة. يقيس هذا الوزن الدقة الإجمالية للتصنيف وهو دالة على الوزن الإجمالي لأنماط التصنيف 
الصحيحة. لذلك c‏ يتم إعطاء أوزان أعلى للفئات الأكثر دقة. تستخدم هذه الأوزان لتصنيف 
الأنماط الجديدة. 

من منظورتحلي ل التباين التحيز » يرك زالتعزيز بشك لأساسي على تقلي ل التحيز. هذا هو السبب 
في أن مجموعة من المتعلمين ذوي القدرة التعميمية الضعيفة يمكن أن تكون قوية للغاية. 


1 bagging 


2 boosting 
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التجميع (باكينيك) 


التجميع هو طريقة بسيطة لكنها فعالة لإنشاء مجموعة من الفئات. يدمج مصنف المجموعة الذي 
تم إنشاؤه بهذه الطريقة مخرجات المصنفات المختلفة في مصنف واحد. ينتج عن هذا فئة أكثر 
دقة من أي فئة أخرى. 

الفكرة من وراء التجميع هي الجمع بين نتائج عدة نماذج للحصول على نتيجة إجمالية. هناك 
سؤال هنا: هل سيكون مفيدا إذا تمكنا من بناء جميع النماذج على مجموعة بيانات واحدة 
ودمجها؟ من المحتمل جد أن يكون لهذه النماذج نفس النتيجة » OV‏ لها نفس المدخلات. 
فكيف يمكننا حل هذه المشكلة؟ تتمثل إحدى الطرق في إنشاء متعلمين أساسيين مختلفين عن 
ارين eod ap tll epi sadi‏ إلى دات da d cole‏ ها واستخدام كل 
مجموعة فرعية لتدريب المتعلم الأساسي. نظرًا لاختلاف مجموعات التدريب الفرعية » فمن 
المرجح أن يكون المتعلمون الأساسيون المدربون مختلفين أيضًا. ومع ذلك . إذا كانت 
المجموعات الفرعية مختلفة GLS‏ » فهذا يعني أن كل مجموعة فرعية تحتوي فقط على جزء 
صغير من مجموعة التدريب الرئيسية e‏ والتي من المحتمل أن تؤدي إلى ضعف التعلم. نظرًا OV‏ 
المجموعة الجيدة تتطلب أن يكون كل متعلم أساسي جيدا بشكل معقول » فإننا DU.‏ نسمح 
للمجموعات الفرعية بالتداخل بطريقة تحتوي كل منها على عينات كافية. 

التجميع يعمل على أساس أخذ عينات Bootstrap‏ بالنظر إلى مجموعة بيانات مع عينات 
(m‏ فإنه يختار عينة بشكل عشوائي ونسخها في مجموعة العينات. بعد ذلك » نحتفظ به في 
مجموعة البيائات الرئيسية حتى تظل هناك فرصة لإزالته في المرة القادمة. بتكرار هذه العملية :7 
مرات » يتم الحصول على مجموعة بيانات تحتوي على عينات m‏ والتي قد تظهر فيها بعض 
العينات الأصلية أكثر من مرة بينما قد لا يظهر بعضها Ll‏ نعلم من الفصل الخامس أن ما يقرب 
من 63.2 من العينات الأصلية تظهر في مجموعة البيانات. 

يؤدي تطبيق العملية المذكورة أعلاه بالترتيب ٠ T‏ إلى إنتاج مجموعة بيانات JS. T‏ منها 
يحتوي على Mole‏ ثم يتم تدريب المتعلمين الأساسيين ودمجهم في مجموعة البيانات هذه. 
مثل هذا الإجراء هو عملية التجميع الأولية. عند الجمع بين تنبؤات المتعلمين الأساسية » يعتمد 
التجميع طريقة التصويت البسيطة للمهام الفئوية وطريقة حساب المعدل البسيط لمهام الانحدار. 
Lite‏ تحصل فئات متعددة على نفس عدد الأصوات » يمكننا اختيار واحد أو أكثر بشكل عشوائى 
لاختبار موثوقية الأصوات. l‏ 

يجلب أخذ عينات Bootstrap‏ ميزة أخرى للتجميع: نظرًا لأزكل متعلم أساسي يستخدم فقط 
7 من العينات التدريبية الأصلية للتدريب e‏ يمكن استخدام 36.8/ من العينات المتبقية 
(خارج الحقيبة) كمجموعة تحقق من القدرة على التعميم. للحصول على هذا التقدير » نحتاج 
إلى تتبع الأنماط التعليمية المستخدمة من قبل كل متعلم أساسي. لنفترض أن Dy‏ تمثل مجموعة 
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من الأمثلة التي يستخدمها المتعلم hp‏ و HOOP (x).‏ تمثل تنبو للعينة X‏ لم تتم رؤيتها . أي . 
ضع في اعتبارك فقط التنبؤات التي قدمها المتعلمون الأساسيون الذين لم يستخدموا عينة X‏ 
للتدريب. ومن ثم لدينا: 
T‏ 
H°?» (x) = argyey max 9. Vh) = y). MG € Dy)‏ 


t=1 


وتقدير العينات غير المرئية هو خطأ تعميم للتجميع: 


1 
ونم‎ = P, MH) s y) 


(x.y)eD 

افترض أن التعقيد الحسابي هو متعلم أساسي OC)‏ وبالتالي فإن تعقيد التجميع هو تقريبًا 
T(O(m) + O(s))‏ هو تعقيد التصويت أو المتوسط. نظرًا OY‏ تعقيد O(S)‏ منخفض و T‏ 
ثابت OE‏ ما لا يكون كبيرًا جد . فإن التجميع له نفس التعقيد الأساسي للمتعلم » مما يعني أن 
التجميع هو خوارزمية تعلم جماعي فعالة. 

من وجهة نظر تحليل التباين- التحيز « يساعد التجميع على تقليل التباين » وهذا مفيد بشكل 
خاص لأشجار القرار غير المعالجة. 
الفرق بين التجميع والتعزيز 


التجميع e‏ مثل التعزيز » هو تقنية تعمل على تحسين دقة التصنيف من خلال إنتاج نموذج هجين 
يجمع بين تصنيفات متعددة. تتبع كلتا الطريقتين نهج التصويت الذي يتم إجراؤه بشكل مختلف 
للجمع بين مخرجات الفئات المختلفة. في التعزيز c‏ على عكس التجميع » تتأثر كل فئة بأداء 
الفئات التي تم إنشاؤها قبل إنشائها. على وجه الخصوص . يولي المصنف الجديد مزيدا من 
الاهتمام لأخطاء التصنيف التي ارتكبتها المصنفات السابقة » حيث يتم تحديد مقدار الاهتمام 
من خلال أدائها. في التجميع . يتم اختيار كل عينة باحتمالية متساوية » بينما في التعزيز » يتم 
اختيار العينات مع احتمال يتناسب مع وزنها. 


التعلم مدى الحياة' 


مع توفر مجموعات بيانات أكبر وخفض التكاليف الحسابية ‏ أصبحت النماذج القادرة على حل 
المهام SV‏ متاحة. ومع ذلك » قد يكون تدريب نموذج في كل مرة تحتاج فيها إلى تعلم مهمة 
جديدة أمرًا مستحيلا. نظرًا لأن البيانات القديمة قد لا تكون متاحة » فقد لا يتم تخزين البيانات 
الجديدة بسبب مشكلات الخصوصية » أو قد لا يدعم تكرار تحديث النظام تدريب نموذج جديد 
مع تكرار جميع البيانات بشكل كاف. يمكن العثور على حلول لهذه المشاكل في التعلم مدى 


1 lifelong 
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الحياة. الهدف من التعلم مدى الحياة هو أن تكون قادرًا على تعلم مهام جديدة دون الحاجة إلى 
الوصول إلى البيانات الخاصة بالمهام التي تعلمناها بالفعل. عندما تتعلم الشبكات العصبية Val gs‏ 
جديدة c‏ فإن المعرفة الجديدة لها الأسبقية على المعرفة القديمة إذا لم يتم استخدام معايير معينة 
مما يؤدي غالبا إلى نسيان المعرفة الثانوية. هذا هو المعروف باسم النسيان الكارثي؟ (انظر الشكل 
2-9( يحدث النسيان الكارثي عندما تكون الشبكة العصبية المدربة غير قادرة على الحفاظ على 
قدرتها على أداء المهام التي تعلمتها بالفعل c‏ عندما يتم تكييفها elo‏ مهام جديدة. 


ES 
(تختفي تدريجياً) عند تعلم‎ Gl شكل 2-9. صورة النسيان الكارثي. تسى المعرفة التي تم تعلمها‎ 
فتات جديدة لم تتم رؤيتها لفترة من الوقت.‎ 
يتعلم باستمرار » ويجمع المعرفة المكتسبة‎ SY التعلم مدى الحياة هو نموذج متقدم للتعلم‎ 
في العمل السابق . ويستخدمها للمساعدة في التعلم في المستقبل. في هذه العملية » يصبح‎ 
وفعالية في التعلم. القدرة على التعلم هي إحدى خصائص الذكاء البشري. ومع‎ Ley المتعلم أكثر‎ 
ذلك . يتم تعلم نمط التعلم الآلي السائد الحالي بشكل منفصل: وفقا لمجموعة بيانات التدريب»‎ 
تعمل خوارزمية التعلم الآلي على مجموعة البيانات لإنشاء نموذج. لا يبذل أي جهد للحفاظ على‎ 
المعرفة المكتسبة وتطبيقها على التعلم في المستقبل. على الرغم من أن نموذج التعلم المنفصل‎ 
للغاية . إلا أنه يتطلب عددًا كبيرًا من أمثلة التدريب وهو مناسب فقط للمهام‎ Geel هذا كان‎ 

المحددة والمحدودة جيدا. 

بالمقارنة » يمكننا نحن البشر أن نتعلم بفعالية من خلال بعض الأمثلة. UN‏ تراكمت لدينا في 
الماضي الكثير من المعرفة التي تتيح UJ‏ التعلم بالبيانات أو بجهد ضثيل. الهدف من التعلم مدى 
الحياة هو تحقيق هذه القدرة. تتطلب برامج مثل المساعدين الأذكياء والروبوتات الحوارية 
والروبوتات المادية التي تتفاعل مع البشر والأنظمة في بيئات العالم الحقيقي Gal‏ قدرات التعلم 
مدى الحياة هذه. بدون القدرة على جمع المعرفة المكتسبة واستخدامها للتعلم التدريجي . ربما 
لن يكون النظام USS‏ حقا على الإطلاق. 


1 catastrophic forgetting 
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التعلم مدى الحياة 


المتعلم الذى تعلم فى سلسلة من المهامء من 1 إلى 1 - N‏ عند مايواجه المهمة N‏ يستخدم المعرفة 


المكتسبة من مهام 1 — ١N‏ السابقه للمساعدةٌ فى ales‏ المهمة -N‏ 


للتأكيد على السياق الدائم. 0 المهام 1 من خلال المهام / المجالات السابقة N-1‏ 
والمهام / المجالات الحالية NJ‏ 


هناك العديد من الأسئلة والتحديات في تصميم نظام التعلم SY‏ مدى الحياة؟ (LML)‏ 
« ما هي المعلومات التي يجب الاحتفاظ بها من مهام التعلم السابقة؟ 
e‏ ما هي أشكال المعرفة التي سيتم استخدامها للمساعدة في التعلم في المستقبل؟ 
e‏ كيف يكتسب النظام المعرفة؟ 
© كيف يستخدم النظام المعرفة للمساعدة في التعلم في المستقبل؟ 
للإجابة على الأسئلة أعلاه. يحتاج نظام LML‏ إلى المكونات العامة الأربعة التالية: 


" تخزين المعلومات السابقة 2 :(PIS)‏ يخزن المعلومات من التعلم السابق. قد يشمل ذلك 
مستودعات فرعية للمعلومات مثل (1) البيانات الأصلية المستخدمة في كل مهمة سابقة . (2) 
نتائج التعلم الوسيطة لكل مهمة سابقة c‏ و (3) النموذج النهائي أو الأنماط المستفادة من المهام 
السابقة. 

" قاعدة المعرفة ? (KB)‏ تخزن المعرفة المستخرجة أو المدمجة من 215. هذا يتطلب مخطط 
تمثيل المعرفة المناسب للتطبيق. تعد قابلية توسيع قاعدة المعرفة ضرورية Cal‏ للبيانات 
الوصفية. 

" مستخرج المعرفة “ (KM)‏ يستخرج المعرفة من PIS‏ يمكن اعتبار هذا التنقيب بمثابة عملية 
تعلم. لأنه يتعلم المعرفة من المعلومات المكتسبة من تعلم المهام السابقة. تتم إضافة المعرفة 
إلى قاعدة المعارف الموجودة (المعرفة الأساسية). 

" المتعلم القائم على المعرفة (KBL)‏ اعتمادًا على المعرفة المتوفرة في «KB‏ يمكن لهذا 
المتعلم استخدام المعرفة أو بعض المعلومات في PIS‏ لوظيفة جديدة. 

من منظور آخرء تعتبر العناصر التالية ضرورية لعامل :LML‏ 


(1) الحفاظ على المعرفة بالمهمة المكتسبة. 


g Lifelong Machine Learning 
2 Past Information Store 
3 Knowledge Base 


a Knowledge Miner 
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(2) النقل الانتقائي أو الاستخدام الانتقائي للمعرفة السابقة عند حل المهام الجديدة. 
(3) نهج منهجي يضمن التفاعل الفعال والكفوء لعناصر الاحتفاظ والإرسال المذكورة 
أعلاه. 
في هذا السياق c‏ تتم مناقشة الحفاظ على المعرفة من منظور تمثيل المعرفة. يمكن تمثيل كل 
متعلم بطرق مختلفة. يمكن أن يكون أبسط شكل هو تخزين عينات التدريب ببساطة. يتميز 
تخزين البيانات التدريبية الأولية بالدقة ونقاء المعرفة (الاحتفاظ بالمعرفة). ومع US‏ فهي غير 
فعالة بسبب كمية التخزين الكبيرة التي تتطلبها. بدلا من ذلك . يمكن تخزين تمثيل لفرضية دقيقة 
تم إنشاؤها من أمثلة التدريب. تتمثل مزايا المعرفة التمثيلية في صغر حجمها مقارنة بالمساحة 
المطلوبة للبيانات التدريبية الأصلية وقدرتها على التعميم بما يتجاوز الأمثلة التدريبية. 
هناك حديث عن نقل المعرفة من منظور التعلم الآلي. يتضمن نقل التمثيل تعيين تمثيل مهمة 
معروفة لنظام التعلم بمهمة موضوعية جديدة. من خلال القيام بذلك c‏ يتم تحديد النموذج الجديد 
كمياً في منطقة معينة من مساحة فرضية النظام. le WE‏ يقلل نقل التمثيل من وقت التدريب 
للنموذج الجديد دون المساس بشكل كبير بأداء تعميم الفرضيات الناتجة. يؤكد النهج المنهجي 
على التفاعل الأساسي بين الاحتفاظ بالمعرفة والتعلم الانتقالي. LML‏ ليست مجرد خوارزمية. 
يمكن أن تستفيد LML‏ من الأبحاث الجديدة حول خوارزميات التعلم وتقنيات التدريب » ولكنها 
تشمل Cal‏ الاحتفاظ بالمعرفة والتنظيم. 


المجالات المتعلقة بالتعلم الآلى مدى الحياة 


هناك العديد من المجالات المتعلقة بالتعلم الآلي مدى الحياة » بما في ذلك التعلم الانتقالي e‏ 
والتعلم متعدد المهام ¢ والتعلم اللامتناهي 2 والتعلم الذاتي 2 والتعلم الاونلاين 2 وتعلم العالم 
Le d‏ محددة. في الأقسام التالية » نصف بإيجاز كل منهم. 

التعلم الانتقالى 


تم إجراء بحث مكثف حول التعلم الانتقالي في السنوات الأخيرة. بشكل عام » يتكون التعلم 
الانتقالي من مجالين: مجال مصدر ومجال مستهدف. يحتوي المجال المصدر على كمية جيدة 
ف aie ell‏ كا رى The‏ اليف على القليل فو بات ارب ار 
يحتوي على أي بيانات. الهدف هو استخدام المعلومات الخاضعة للإشراف من المجال المصدر 
للمساعدة في توقع المجال الهدف. بعبارات أبسط » يساعد التعلم الانتقالي في عملية تعلم مهمة 
معينة من خلال الاستفادة من معرفة مجال آخر. التعلم الانتقالي هو Il‏ خاصة oY LML J‏ 
عادة ما يخزن فقط بيانات المجال المصدر. يفترض التعلم الانتقالي Cad‏ عادة أن المجال 


2 
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التعلم متعدد المهام 


التعلم متعدد المهام هو تعلم العديد من المهام ذات الصلة في وقت واحد » بهدف تحقيق أداء 
rail‏ باستخدام المعلومات ذات الصلة التي تشاركها المهام. يؤدي تعدد المهام CA‏ إلى تجنب 
الضبط الزائد في مهمة واحدة c‏ مما يؤدي إلى تعميم أفضل. تركز المهام المتعددة Bale‏ على تقليل 
الأخطاء في جميع المهام . لذلك عند إدخال مهمة جديدة . يجب تنفيذها في جميع المهام « بما 
في ذلك جميع المهام السابقة. من ناحية أخرى » يستخرج LML‏ المعرفة من المهام السابقة 
ويجمعها وینطبق فقط على العمل الجديد باستخدام المعرفة المحفوظة. على غرار التعلم 
الانتقالي » يفترض تعدد المهام عادة أن المهام مترابطة. 
التعلم اللانهائى' 
التعلم اللانهائي له نفس منطق LML‏ من حيث أنه يهدف إلى تحقيق أداء أفضل بعد عرض المزيد 
من البيانات. نظام التعلم اللامتناهي الأكثر شهرة هو متعلم اللغة اللانهائي” (NELL)‏ والذي 
يهدف إلى استرداد المعلومات من الويب eld‏ قاعدة معرفية منظمة. كل يوم > هدف التعلم هو 
تحقيق أداء أفضل من اليوم السابق. 
التعلم الذاتى" 
التعلم الذاتي هو نوع خاص من التعلم الانتقالي يكون فيه المجال المصدر هو نفسه المجال 
الهدف. لذلك فهو يركز فقط على مجال واحد. يتم الحصول على المعرفة من كميات كبيرة من 
البيانات غير المسماة (البيانات الوصفية) التي يكون الحصول عليها أسهل بكثير من الحصول 
على البيانات المصنفة. يتم تمثيل البيانات المصنفة والبيانات غير المسماة ب Dy‏ و Dy‏ على 
التوالي. لا يوجد افتراض حول العلاقة بين Dy‏ و -Di‏ يمكن أن يكون ل Dy‏ توزيع مولد مختلف 
الخطوات الأساسية للتعلم الذاتي هي كما يلي: 


1. تعلم تمثيل Sle‏ المستوى Dyd‏ 
2. تعيين هذه الميزات التجديدية؛ D4J‏ 


1 Never-ending Learning 
2 Never-Ending Language Learner 
3 Self-Taught Learning 


4 Regenerate 
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3. بناء نموذج تعليمي خاضع للإشراف gle)‏ سبيل المثال « (SVM‏ على الميزات 
المعاد إنشاؤها من الخطوة 2. 


منطق التعلم للتمثيل عالي المستوى ل Dy‏ هو أنه من خلال كميات كبيرة من البيانات غير 
المسماة » قد تكون الخوارزمية قادرة على تعلم "العنصر الأساسي" الذي يتكون من كائن. على 
سبيل المثال » بالنسبة للصور . يمكن أن تكون السمة الرئيسية ل Dy,‏ هي قيم BUS‏ البكسل. من 
خلال تعلم البيانات غير المسماة » قد تتعلم الخوارزمية عرض الصور باستخدام الحواف على 
الصور بدلاً من قيم BES‏ البكسل الأولية. من خلال تطبيق هذا التمثيل المكتسب على «Dy‏ 
نحصل على تمثيل بمستوى أعلى ل Dy‏ والذي من المتوقع أن يكون أكثر قابلية للتعميم. بعد 
تعلم التمثيل غير المراقب e‏ يتم تحويل كل عينة تعليمية رئيسية إلى مساحة بعد جديدة » ويمكن 
إنشاء خوارزمية تعلم خاضعة للإشراف « مثل SVM‏ باستخدام البيانات التعليمية المحولة. 


التعلم الاونلاين' 

تمت دراسة التعلم الاونلاين على نطاق واسع في مجتمع التعلم الآلي. وتتمثل مهمتها في التعلم 
من التدفق المستمر للبيانات. تكوين التعلم الاونلاين مشابه LML J‏ بمعنى أنه يعمل في سيناريو 
دفق البيانات. لكن التعلم الاونلاين يفترض Sole‏ أن البيانات الجديدة تشترك في نفس التوزيع 
مثل البيانات الحالية » بينما يفترض Ga) LML‏ أن البيانات الجديدة قد تنتج من مهمة جديدة 
ليس لها نفس التوزيع (أو حتى غير ذي صلة). 

تعلم العالم المفتوح ' 

يتعامل تعلم العالم المفتوح مع مشكلة تحديد فئات جديدة في وقت الاختبار » وبالتالي تجنب 
LAM‏ غير الصحيح kal‏ المعروفة. عندما يتم دمج فئات جديدة a‏ النموذج 2 فإنه يحل 


مشكلة التعلم مدى الحياة. بهذه الطريقة » يمكن اعتبار تعلم العالم المفتوح مهمة فرعية للتعلم 
مدى الحياة. 


! Online learning 


2 Open world learning 
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التعلم الآلى san‏ الحياة للنماذج المميزة 

تم إجراء A Coe‏ حول LML‏ فيما يتعلق بقضايا التصنيف. يمكن تصنيف العمل السابق إلى 
ثلاث فئات:المناهج الهجينة المعيارية'ء والمناهج القائمة على gasa‏ ومناهج المراجعةة. 
المناهج الهجينة المعيارية 


تستخدم المناهج الهجينة المعيارية مكونات أو معاملات نموذجية مختلفة لمهام مختلفة لمنع 
نسيان النموذج. أبسط منهج معياري هو تعليم نموذج منفصل لكل مهمة. ومع ذلك . فشل هذا 
المنهج في استخدام النماذج المدربة Gane‏ وبالتالي يؤدي إلى إهدار الموارد. لحل هذه المشكلة» 
تم اقتراح شبكات تقدمية” باستخدام المعرفة المسبقة للنماذج المدربة مسبقاً. افترض أن شبكة 
عصبية تحتوي على L‏ طبقة (AE Jes‏ تم تدريبها في المهمة 1. عند وصول مهمة جديدة c‏ يتم 
إصلاح معاملات النموذج الذي تم تدريبه مسبقا » ويتم تقديم شبكات فرعية جديدة وتطبيقها 
على خرائط الميزات السابقة لإنشاء خرائط الميزات لهذه المهمة الجديدة. 


المناهج القائمة على التنظيم 


على الرغم من أن الأساليب الهجينة المعيارية يمكن أن تحل مشكلة النسيان الكارثي , إلا أنها 
تتطلب الكثير من الذاكرة ؛ هناك حاجة إلى عدة وحدات أو حتى وحدة واحدة لكل مهمة 
للمساعدة في تعلم جميع المهام. نوع آخر من النهج هو الضبط الدقيقة للنموذج الذي تم تدريبه 
مسبقًا للمهام الجديدة وتوصيل الشبكة للحفاظ على أداء النموذج في المهام السابقة. Sole‏ ما 
يحتفظ هذا النوع من نهج التنظيم بنموذج لجميع المهام أو يضيف معاملات محدودة جدا لكل 
مهمة جديدة. هناك طريقتان لتعيين معاملات الشبكة. الطريقة الأولى هي معاقبة معاملات الشبكة 
المهمة للمهام السابقة من التغيير عند تعلم المهام التالية. الطريقة الثانية هي تخصيص معاملات 
الشبكة بحيث لا تتغير مخرجات النماذج المدربة مسبقا عند تعلم المهام التالية. 


مناهج المراجعة 


تتضمن مناهج المراجعة مخزن ذاكرة مؤقت يخزن عددًا صغيرًا من العينات للمهام السابقة. 
يُقترح الاحتفاظ بمجموعة فرعية من العينات في كل فئة يمكنها تقدير متوسط كل فئة على أفضل 


! modular compositional approaches 
2 regularization based approaches 

3 rehearsal approaches 

2 Progressive Networks 


? fine-tune 
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وجه. طريقة المراجعة عرضة للضبط الزائد للعينات المخزنة. لمعالجة هذه المشكلة e‏ تم اقتراح 
مناهج تستند إلى ذاكرة التدرج العرضي' (GEM)‏ مؤخرًا. الغرض من GEM‏ هو تحديث 
معاملات النموذج المدرب حتى لا تزداد الخسارة لجميع المهام السابقة. 


اكتشاف خارج التوزيع' 


UU‏ ما يتم تدريب الشبكات العصبية العميقة على افتراضات العالم المغلق c‏ أي أنه يُفترض أن 
العمل الواقعي « يكون هذا الافتراض غير صحيح ويؤدي إلى انخفاض كبير في أدائهم. على الرغم 
من أن هذا الانخفاض في الأداء مقبول لتطبيقات مثل التوصية بالمنتجات » إلا أن استخدام مثل 
هذه الأنظمة فى مجالات مثل الطب والروبوتات المنزلية يعد أمرًا خطيرًا . حيث يمكن أن يتسببوا 
فى حوادث خطيرة. 

عندما تعالج الشبكات العصبية العميقة البيانات التي لا تشبه التوزيع الذي لوحظ أثناء التدريب 
L)‏ يسمى خارج التوزيع) › فإنها WE‏ ما تقدم ت تنبؤات ELE‏ وتقوم بذلك بثقة كبيرة (الشكل 
3-9 انظر). ينبغي > إن of‏ > تعميم نظام الذكاء الاصطناعي المثالي على عينات خارج 
التوزيع. لذلك . فإن القدرة على اكتشاف الخروج من التوزيع أمر بالغ الأهمية للعديد من 
تطبيقات العالم الحقيقي. 


YY.‏ © جك ين ين 
BS‏ و wey‏ 
Wem Wr |‏ 
BEM MY m ce‏ 
Maemvee-— fe‏ 


1O 


الشكل 3-9. عندما يتم تقديم عينة جديدة خارج التوزيع المكتسب . تتنباً الشبكات العصبية بفئة من 
التوزيع المكتسب بثقة كبيرة. يقترح اكتشاف خارج التوزيع خوارزميات لحل هذه المشكلة. 


1 Gradient Episodic Memory 


2 Out-of-distribution detection 


الفصل التاسع: موضوعات مختارة 435 


يعد اكتشاف التوزيع غير الضروري لضمان موثوقية وسلامة أنظمة التعلم الآلي. في القيادة 
الذاتية « على سبيل المثال . نريد أن يقوم نظام القيادة بالتحذير وتسليم السيطرة عندما يكتشف 
مشاهد أو أشياء غير عادية لم يراها من قبل ولا يمكنه اتخاذ قرار آمن. 

ظهرت هذه المشكلة لأول مرة في عام 2017 ومنذ ذلك الحين جذبت اهتمامًا متزايدًا من 
مجتمع البحث. يعتمد معظم العمل الأخير على الكشف عن خارج التوزيع على تدريب مراقبة 
الشبكات العصبية التي تعمل على تحسين خطأ الانتروبيا المتبادلة؟. في هذه الحالات › يرتبط 
إخراج الشبكة bts!‏ مباشرًا بحل المشكلة » أي احتمال كل فئة. ومع ذلك . يجب أن يكون 
مجموع تمثيلات متجه الإخراج slo ls‏ هذا يعني أنه عندما يتم عرض إدخال على الشبكة 
ليس جزءًا من توزيع التدريب c‏ فإنه لا يزال يعطي الاحتمال لأقرب فئة بحيث يصل مجموع 
الاحتمالات إلى واحد. أدت هذه الظاهرة إلى المشكلة المعروفة المتمثلة في شبكات عصبية آمنة 
للغاية 2 لمحتوى لم يسبق رؤيته من قبل. 


على الرغم من أن التعلم العميق لديه القدرة على تمثيل البيانات بقوة وأداء أفضل من العديد 
من الأساليب الأخرى في العديد من مسائل التصنيف ومعالجة الصور » إلا أنه لا يكفي لبناء نظام 
ذكي للذكاء الاصطناعي. هذا لأن نظام الذكاء الاصطناعي يجب ألا يكون قادرًا على التعلم من 
البيانات فحسب . بل يجب أن يتعلم أيضًا من التفاعلات البشرية مع بيئة العالم الحقيقي. يعد 
التعليم المعزز أحد مجالات التعلم الآلي ويركز على تمكين الجهاز من التفاعل مع بيئة العالم 
الحقيقي. 

يحاول التعليم المعزز من خلال الوكيل حل المشكلة عن طريق التجربة والخطأ من خلال 
التفاعل مع بيئة غير معروفة للوكيل. يمكن للوكيل تغيير حالة البيئة من خلال أفعاله أثناء إجراء 
ردود فعل فورية من البيئة. OUS‏ ما يشار إلى الاستجابات على أنها المكافأة في التعليم المعزز. 
يكتسب الوكيل القدرة على التعلم بشكل أفضل من خلال تلقي المزيد من المكافآت الإيجابية 
من البيئة. بشكل عام » هدف الوكيل هو إيجاد سلسلة الإجراءات المثلى لحل المشكلة. عادة ما 
يتم نمذجة التعليم المعززكعملية ماركوف لاتخاذ القرار ويمكن وصفه بالشكل 4-9. 


1 cross-entropy loss 


? overconfident 


3 reinforcement learning 
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At el > MI 


* 


شكل 4.9 عرض التعلم المعزز r‏ 


كما يتضح من الشكل 4-9 Ob‏ وحدة التعلم» التي تسمى الوكيل» تغير بيئتها بنشاط عن 
يق تحديد الإجراء © من مجموعة من الإجراءات الممكنة. بعد العمليةء تتغير البيئة وفقا لذلك 
وتخبر الوكيل بالحالة الجديدة. بالإضافة إلى ذلك. ترسل البيئة إشارة مكافأة r‏ إلى الوكيل: مما 
يوفر ملاحظات حول الإجراء المحدد Gg‏ للسيناريوهات المحددة. يستمر الوكيلفي العملء 
والانتقال من حالة إلى أخرى. حتى يصل إلى حالة نهائية. 
يمكن سرد مكونات نظام التعليم المعزز على النحو التالي: 
" الوكيل: برنامج تم تدريبه للقيام بمهمة محددة. 
m‏ البيئة: العالم الحقيقي أو الافتراضي. حيث يتخذ الوكيل الإجراءات. 
* الإجراء: حركة يقوم بها الوكيل تؤدي إلى d ues‏ الحالة (الحالة)في البيئة. 
* المكافأة: تحدد دالة المكافأة هدقاني مشكلة التعليم المعزز وترسم كل حالة ملحوظة من البيئة 
إلى رقم واحد يشير إلى الرغبة الكامنةفي تلك الحالة. الغرض من المكافأةفي التعليم المعزز هو 
تقييم إجراء يمكن أن يكون Goel‏ أو سلبيًا والاستجابات التي يتلقاها الوكيل من البيئة بعد 
كل إجراء. قد لا تكون المكافأة الحقيقية لفعل الشيء الصحيحفي موقف معين فورية. 
الحالة: جميع المعلومات التي يمتلكها الوكيلفي بيئته الحالية.في لعبة الشطرنج. على سبيل 
oI‏ يكون الموضع هو موضع كل القطع على رقعة الشطرنج. 
المشاهدات: BIL‏ إلى Gal‏ بعض الحالات» لا يتمكن الوكيل من الوصول إلى الحالة الكاملة 
للبيئةء فعادة ما OSG‏ المشاهدة جزءًا من الحالة التي يمكن للعامل مراقبتها. بمعنى آخر. 
المشاهدات هي المعلومات التي توفرها البيئة للوكيل وتوضح ما يحدث حول الوكيل. ومع 
ذلك WE‏ ما يتم استخدامها بالتبادلفي الأدب والوضع والمشاهدة. 
" السياسة: تحدد ما سيفعله الوكيل وفقا للوضع الحالي.في مجال التعلم العميق؛ يمكننا تدريب 
شبكة عصبية لاتخاذ هذه القرارات. خلال فترة التدريب» يحاول الوكيل تعديل سياسته لاتخاذ 
قرارات أفضل. تسمى مهمة إيجاد السياسة المثلى تحسين السياسة (التحكم) وهي واحدة من 
القضايا الرئيسيةفي التعلم المعزز. 
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" دالة القيمة: تحدد ما هو جيد للوكيل على المدى الطويل. بمعنى GST‏ عندما نطبق Blo‏ القيمة 

على حالة معينةء إذا بدأنا من تلك الحالةء فإنها تعطينا العائد الإجمالى الذي يمكن توقعەفي 

المستقبل. 

ستساعدك الأمثلة البسيطة التالية على فهم آلية التعليم المعزز بشكل أفضل: 

افترض أن لديك قطة وتريد تدريبها على القيام بأشياء معينة. نظرًا OY‏ القطة لا تفهم اللغة 
العربية أو أي لغة أخرى . فلا يمكن إخبارها مباشرة بما يجب أن تفعله. بدلا من ذلك » يمكن 
اتباع استراتيجية مختلفة. نقدم G3 ga‏ وتحاول القطة الرد بطرق مختلفة. إذا كانت استجابة القطة 
هى الاستجابة الصحيحة » فإننا نعطيها سمكة. الآن . عندما تتعرض قطة لنفس الموقف › تنتظر 
القطة بفارغ الصبر نفس المكافأة (الطعام). GY‏ تعلم أنه إذا قام بعمل معين . فسوف يكافاً. 

فى هذا المثال: 


e‏ القطة هي التي تكشف البيئة المنزلية في هذه الحالة. 
© يمكن أن يكون الموقف عبارة عن جلوس قطة . ويمكنك استخدام قول كلمات معينة 
e‏ من خلال القيام بعمل «Le‏ يتفاعل الوكيل بالانتقال من حالة إلى أخرى. على سبيل المثالء 
تنتقل القطة من الجلوس إلى المشي. 
يمكن تقديم مثال آخر للأطفال. غالبًا ما يرتكب الأطفال أخطاء. يحاول الكبار AST‏ من أن 
الطفل قد تعلم من هذا الخطأ ومحاولة عدم تكراره مرة أخرى. في هذه الحالة ‏ يمكننا استخدام 
مفهوم التغذية الراجعة. إذا كان الآباء صارمين » فإنهم يلومون أطفالهم على أي أخطاء . وهي 
ردود فعل سلبية. من الآن فصاعدًً . سوف يخطئ الطفل فى تذكر أنه فعل BY CLE Éa‏ 
oa ale p b Li‏ قبل cual ll‏ نشي هنال eU mds o cau] fad aga;‏ اما 
الشيء الصحيح. هنا ء نقوم أو نحاول القيام بعمل صحيح بطريقة معينة. 
باختصار » التعليم المعزز هو نوع من منهجية التعلم التي نقدم فيها ملاحظات للخوارزمية مع 
مكافآت للتعلم منها . من أجل تحسين النتائج في المستقبل. 
عملية ماركوف لاتخاذ القرار' 
عملية ماركوف لاتخاذ القرار هي نموذج رياضي عشوائي لسيناريو صنع القرار. في كل مرحلة › 


يختار صانع القرار » أو بعبارة أخرى نفس الوكيل e‏ إجراءً. في هذا النموذج . يكون جزء من 
النتيجة عشوائيًا والجزء الآخر هو نتيجة فعل. تستخدم عمليات صنع القرار في ماركوف لنمذجة 


1 Markov decision process (MDP) 
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مجموعة متنوعة من مشكلات التحسين ويمكن حلها من خلال البرمجة الديناميكية والتعليم 
المعزز. 

تشبه عملية صنع القرار في ماركوف مخططًا انسيابيًا به دوائر تمثل المواقف او الحالات. 
ستظهر أسهم من كل دائرة » تشير إلى جميع الإجراءات الممكنة التي يمكن اتخاذها من هذا 
الموقف. على سبيل المثال e‏ عملية صنع القرار في ماركوف في تمثيل لعبة الشطرنج لها مواقف 
تشير إلى موقع القطع على رقعة الشطرنج والإجراءات التي تشير إلى الحركات المحتملة بناءً على 
القطع الموجودة على رقعة الشطرنج 

الميزة الرئيسية لعملية صنع القرار في ماركوف هي أن كل حالة يجب أن يحتوي على جميع 
المعلومات التي يحتاجها الوكيل لاتخاذ قرار مستنير » وهو مطلب يسمى "أصول ماركوف". في 
الأساس c‏ تقول أصول ماركوف أنه لا يمكن للمرء أن يتوقع أن يكون للوكيل ذاكرة تاريخية خارج 
حالته. على سبيل المثال » توضح الحالة الحالية لرقعة الشطرنج كل الأشياء الأفضل للخطوة 
التالية » وليست هناك حاجة إلى الحركات التي تم إجراؤها من قبل لحفظها. 

في الممارسة العملية » لا يتعين على التعلم المعزز محاكاة مشكلة العالم الحقيقي من أجل 
حل مشكلة ما. على سبيل المثال e‏ قد تلعب ذاكرتي حول كيفية لعب خصم معين الشطرنج 1592 
في عملية اتخاذ القرار الخاصة بي في العالم الحقيقي . ولكن من الممكن الفوز بلعبة شطرنج 
من خلال التعليم المعزز دون الحاجة إلى هذه المعلومات. 

يتم تحديد عمليات صنع القرار في ماركوف من خلال مجموعة من 5 P A S> pole‏ 
>Y R‏ . حيث: 

SS e‏ مجموعة من الحالات التي تتضمن جميع التمثيلات الممكنة للبيئة. 
A‏ في كل حالة » توفر البيئة للوكيل مجموعة من الإجراءات في مساحة التشغيل للوكيل 
للاختيار من تلك الإجراءات. العامل يؤثر على البيئة من خلال الإجراءات. 
P = (s,a, $) = P (St+1 = Ś|st = sS, a, =a) :P e‏ مصفوفة الانتقال هي 

احتمال أن تؤدي الاجراء © في الحالة s‏ في الوقت ئ إلى الحالة 5 في الوقت 1 t+‏ 
:R e‏ (5,ه,5) = R‏ المكافأة المتوقعة التي يتلقاها الوكيل بعد الإجراء © في الحالة S‏ 
والوصول إلى SILI‏ 
zy‏ عامل هبوط ويظهر الأهمية بين المكافآت قصيرة الأجل وطويلة الأجل. 

تتمثل إحدى القضايا الرئيسية في عمليات صنع القرار في ماركوف في إيجاد 'سياسة' لصانع 
القرار ؛ دالة P‏ تحدد الحالات للعمليات a = 7 (S)‏ يمكن أن تكون هذه السياسة محددة أو 
عشوائية. الهدف هو العثور على سياسة تزيد من إجمالي المكافأة إلى الحد الأقصى من حالة إلى 


£ 


اخرى: 


G, = > y! . R(si aj, St+1) 
i-t 
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gh JBI] Ge game‏ العاف 
الوكيل 


الوكيل هو شخص أو شيء يتفاعل مع هذه البيئة من خلال تنفيذ إجراءات وملاحظات معينة 
وتلقى المكافآت النهائية. العامل هو مكون يقرر ss‏ على الثواب والعقاب الإجراء الذي يجب 
اتخاذه. لاتخاذ ols‏ يُسمح للوكيل باستخدام أي مراقبة للبيئة وأي قانون داخلي. يمكن أن تكون 
هذه القواعد الداخلية أي cd‏ ولكن عادةني التعليم المعزز يتوقع المرء أن يتسم الوضع الحالي 
من بيئة الامداد إلى الحالة باتخاذ قرارات ماركوف. ثم يقرر باستخدام دالة السياسة» ما هو القرار 
الذي يجب اتخاذه. 
في معظم سيناريوهات التعلم المعزز العملية» من المفترض أن يحل وكيل البرمجيات لدينا 

بعض المشكلات بطريقة أكثر أو أقل كفاءة. الوكيل هو أحد أهم مكونات النظام القائم على التعليم 
المعزز. لأنه يتضمن ذكاءً لاتخاذ القرار والتوصية بالإجراءات (العمليات) المثلىفي أي موقف. 
نظرًا OY‏ الوكيل يلعب دورًا مهما للغايةفي التعليم المعززء فقد تم إجراء الكثير من الأبحاث حول 
بنية التعلم والنماذج ذات الصلة. فيما يلي» نقسم الخوارزميات £s‏ على الوكلاء إلى خوارزميات 
قائمة على القيمةء وقائمة على Lad!‏ وقائمة على النموذج. 
خوارزميات قائمة على القيمة 
في الخوارزميات القائمة على القيمةء يتم تعيين دوال القيمة V" (s)‏ للحالات ويتخذ صانع 
القرار قراراته ty‏ على قيم الحالات. دالة القيمة هي دالة تقيم مدى استناد الموقف إلى التنبؤ 
بالمكافآت المستقبلية. هناك نوعان مختلفان من دوال القيمة: 

٠‏ دالة الحالة-القيمةء التي يشار إليها عادة pul‏ دالة القيمةء,6 هي العائد المتوقع بدءًا من 

الحالة 5 وتتبع السياسة T‏ . ويتم تعريفها بواسطة معادلة بلمان على النحو التالي: 
V^(s) = E[G,|S; = s]‏ 


E > n(a|s) 2. n(S|s,a)[R = (s, a, 4) + y 9]‏ 
acA SES ,‏ 
o‏ دالة الحالة_الاجراء . يشار اليها dole‏ بقيمة © , العائد 6 المتوقع هو زوج من الحالة- 
الاجراء في الوقت t‏ للسياسة ٠ T‏ ويتم تعريفه بالمثل بواسطة معادلة بلمان على النحو 
التالي: 


07 ره,ى)‎ = E[G,|S; = s, A, = a] 
z > P(Sls,a)[R = (s,a,$)+y 3 r(û, $)  Q"($,4)] 


SES acA 
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معادلات بلمان 
معادلات بلمان هى مجموعة من المعادلات التى تحلل دالة القيمة إلى GUIS‏ فورية 
بالإضافة إلى القيم المستقبلية المخصومة. 
OSS‏ 


= E[Rer1 + YRrra + y? Rega... Se = s] 
Rira FY(Rma t Y Resa... Se = 5| 


= E[ 
= E[Rr44 + VGr4115¢ = s] 
= E[Rea1 + YV (St41)|S¢ = s] 


jeu‏ بال ل 0 -القيمة: 


Q"(s,a) = E[Rey1 + WV (St+1)lSt = s, A; = a] 
= E[Rr44 + VEg~nQ (St41, 4) |S; = S, Ac = a] 


تم إنشاء المعادلة التالية بين دالات الحالة- القيمة و الحالة الإجراء: 
V") =) mls) Q"G,a)‏ 


الهدف هو زيادة إجمالي المكافأة التراكمية على "P‏ الطويل. بمعنى BT‏ الهدف من 
التعليم المعزز هو إيجاد السياسة المثلى. يُطلق على السياسة الذي تزيد الحد الأقصى للمكافأة 
التراكمية السياسة المثلى ويُشار إليه بعلامة *2. السياسة المثلى *7 هو أن قيمة كل حالة S‏ 
تحت mrt‏ أكبر من أو تساوي قيمة الحالة "10 تحت سياسة اخرى T‏ لجميع 5 © 5: 
V" (s) =V*(s) > VT Vs E S,r'‏ 
إذا كانت دالة القيمة الحالة هي الأمثلء يستخدم الوكيل السياسة المثلى» وقد يكون هناك 
العديد من السياسات المثلى التي تؤدي إلى نفس دالة القيمة-الحالة المثلى. يمكن تعريف 
io‏ امال de V* Boll ia il‏ النحو التالي: 
V*(s) 2max,V"(s)VseS‏ 
بالإضافة إلى ذلك . تؤدي السياسة المثلى إلى دالةالإجراء- الحالة المثلى :Q*‏ 
Q*(s,a) = max,Q"(s,a)VSES,AEA‏ 
E[Rr,ı + yV"(S)|S; = s, Ac = a] .‏ = 7 
أخيرًا » يمكن اشتقاق معادلة تحسين بلمان من المعادلات التي تم تقديمها مسبقًا: 
V*(s) = maxseas)Q" (s, a)‏ 
maxa E[Rr41 + YV*(S)|S; = s, Ac = a]‏ = 


= max, 2. P(s|s, a)[Rs, a, $) + yV*($)] 
Ses 
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= MAXa 2. P(s|s, a) [R(s, a, $) + ymax,Q” (é, á)] 
SES 
مخطط الدعم في التعلم المعزز‎ 
يمكن فهم معادلات بلمان بشكل أفضل باستخدام شجرة الحالات والاجراءات (مخطط الدعم).‎ 
للخوارزميات والنماذج المختلفةفي التعليم المعزز.‎ Us a يُظهر مخطط الدعم تمثيلا‎ 
والإجراء‎ ALS عملية الدعم (عملية التحديث) هي تمثيل رسومي للخوارزمية» تشير إلى‎ 

وحالة التحويل» والمكافأة» وما إلى ذلك. يوضح هذا الرسم البياني قيمة الحالة بدائرة مجوفة بينما 
يتم عرض قيمة الإجراء مع دائرة صلبة. Cal‏ يتم عرض الإجراء بسهم يبدأ من الحالة. 
الآن دعونا ننظرفي كيفية عرض قيمة الحالة باستخدام مخططات الدعم (الشكل 5-9). 
1. 5 هو وضع البداية والعقدة الرئيسية. 
2. من الوضع 5. يمكن إجراء ثلاث عمليات. كما يتضح من السهم ويتصرف الوكيل Gi,‏ 

لسياسة T‏ 
3. إذا كانت البيئة العشوائية لديها احتمالية معينة LW‏ فيمكن أن ينتهي هذا العاملفي 

مواقف مختلفة. كما هو موضحفي JS‏ هناك 3 أوضاع محتملة يمكن للوكيل إدخالها 


بعد Aus‏ الإجراء الصحيح. 


O O° 


الشكل 5-9. مخطط الدعم للحالة- القيمة V" (s)‏ 
الخوارزميات المستندة إلى السياسة 


السياسة هي استراتيجية تمكن آلية التعلم من تحديد الإجراء التالي الأفضل بناءً على 
الوضع الحالي. السياسة هي جوهر التعلم المعزز؛ أي أنه وحده يكفي لتحديد السلوك. 
تخد الخوارزميات Mages‏ السياسة تيجا AST tls‏ من الخوارؤميات SS‏ 
إلى القيمة.ني هذا النهج» بدلاً من العثور على قيمة كل موقف محتمل ثم الحصول على 
السياسة المثلى» يسعون للعثور على السياسة مباشرة لتعظيم العائد المتوقع. 
وبعبارة أخرى» OB‏ جوهر الأساليب المستندة إلى السياسة هو تحديث معاملات 
السياسة 6 ؛ بحيث يزيد عائد Gt‏ المتوقع. بعبارات أبسط.في النهج القائم على السياسةء 
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يتم أولاً اختيار سياسة عشوائية وفي مرحلة التقييم يتم العثور على دالة القيمة لثلك 
السياسة. بعد ذلك» حساب السياسة الجديدة باستخدام دالة القيمة للتحسين في كل خطوة. 
يكرر هذه العملية حتى يتم العثور على النهج الأمثل. يتم وصف عملية التحسين على 
النحو التالي: 
Giza = 0; + A0;‏ 
ee‏ ھی مجر فن ادات ال اا ال کر ja d Labbe‏ 
otto AG;‏ امات السا 


الاستخراج' مقابل الاستكشاف ' 


يحاول البشر الحصول على أكبر قدر ممكن من المعلومات قبل القيام بأي شيء. على سبيل 
المثال» قبل تجربة مطعم codem‏ حاول قراءة التعليقات أو اسأل الأصدقاء الذين جربوه بالفعل. 
من ناحية أخرى.في التعليم المعزز» هذا غير ممكن. ولكن هناك بعض الأساليب التي يمكن أن 
تساعدكفي اكتشاف أفضل استراتيجية. 
في التعليم المعزز. يمكن للوكيل تطبيق استراتيجيتين عند اتخاذ القراراتفي البيئة: 
e‏ الاستكشاف: اختر إجراءً عشواتيًا. باتباع هذه الطريقة» يمكن للوكيل زيارة الحالات 
الجديدة والعثور على سياسات جديدة وأفضل. والنتيجة هى المزيد من المعلومات التى 
قد تؤدي إلى قرارات أفضلفي المستقبل. l‏ 
e‏ الاستخراج: كن طماعًا. اختيار أفضل الأعمال المعروفة حسب العلم المتاح» باستخدام 
المكافأة الإجمالية. بمعنى CST‏ تعتزم اتخاذ القرار الأفضل Fly‏ على المعلومات الحالية. 
في التعليم المعزز. يتم استخراج هذا النوع من اتخاذ القرار: عندما تستمرفي العمل السابق» يسمى 
الاستخراج. وعندما تحاول أشياء أخرى. lao‏ عليه الاستكشاف. 
إحدى السمات الرئيسية للتعليم المعزز هي مشكلة الاستخراج مقابل الاستكشاف. إذا أراد 
الوكيل تعلم أفعال أفضلء أو بعبارة أخرى» أفعال ستؤديفي النهاية إلى المزيد من المكافآات 
المتراكمة» فعليه أن يجرب أفعالًا جديدة. أيضًاء إذا كان الوكيل قد استخرج من معرفته الحالية 
واتبع الإجراءات المعروفة Gle‏ للحصول على تعليقات جيدة للمكافأة. فلا يمكن ضمان 
الحصول على عائد أعلى من المكافأة التي كان من الممكن أن يحصل عليها الوكيل. إذن فهذه 
معضلة يواجهها الوكيل عند اتخاذ قرار بشأن المزيد من الإجراءات: إما تجربة إجراءات عشوائية 
وتخمين أنه سيحصل على المزيد من المكافآت. ولكن يخاطر بتفاقم النتيجة. أو من خلال 
التصرف وفقًا لظروفه الحاليةء فمن المحتمل أن يحصل على مكافأة أقل ولكن مؤكدة. بمعنى 


D exploitation 


2 exploration 
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oe‏ إذا كان الوكيل يقوم بالاستكشاف hdd‏ فقد لا يحقق درجات del‏ ويحسن أفعاله. من 
ناحية أخرى. إذا تم استخدام الاستخراج فقط فقد يعلقفي سياسته الحالية من خلال رؤية جميع 
المسارات الممكنة. وبالتالي» من المرجح أن يفوت الوكيل السياسة المثلى. UI‏ يجب أن يكون 
هناك توازن جيد بين الاستكشاف والاستخراج. 

تنشأ هذه المشكلة OY‏ عملية التعلمني التعليم المعزز تتم اونلاين. بمعنى آخر, لا تتم مراقبة 
التعليم المعزز بقدر ما يتم مراقبة التعليم. لذلك» يسعى الوكيل نفسه إلى جمع البيانات بطريقة ما 
ويؤثر على البيانات المرصودة من خلال الإجراءات التي يقوم بها. UH‏ من المفيد أحيانًا القيام 
بإجراءات مختلفة للحصول على بيانات جديدة. 

مشكلة الاستكشاف مقابل الاستخراج هي موضوع متكررفي التعليم المعزز والذكاء الاصطناعي 
بشكل ple‏ هل Ule‏ أن نستخلص من المعرفة المكتسبةء أي هل علينا أن نتبع مسارًا معروقًا 
بمكافآت كبيرة؟ el‏ ينبغي Ule‏ استكشاف المواقف المجهولة bow‏ عن سياسة جديدة أفضل؟ 
التوازن بين كل من استراتيجيات صنع القرار يحسن بشكل كبير أداء التعلم للوكيل. الإجابة 
المقبولة لحلها هي أن أحد العوامل يحتاج أولاً إلى اكتشاف معظم المواقف ثم الحصول على 
نتائج أفضل من خلال استخراج المعرفة المتراكمة. لكن يجب ألا ننسى dash‏ البيئات الديناميكية, 
من الصعب للغاية الحصول على ما إذاكان قد تم الاستكشاف الكافي أم لا. ومع ذلك هناك عدة 
طرق لاختيار الإجراءات الموضحة أدناه. 
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والاستخراج التوازن بين مقدار جهد العاملفي الاستكشاف والاستخراج» على التوالي. يعتبر 


التفاعل بين الاستكشاف والاستخراج موضوعا رئيسيًا لبحوث التعليم المعزز وتطوير 
خوارزميات التعلم المعزز. 
إستراتيجية اختيار الجشع - إبسيلون 


طريقة ممكنة وبسيطة وشائعة لكنها فعالة لاختيار الإجراءني كل مرحلة كاستراتيجية اختيار هي 
اختيار الجشع ‏ إبسيلون. في هذه الطريقةء تتحكم المعامل © بين 0 و 1 العامل الذي يعمل 
أثناء قيامه بالاستخراج أو الاستكشاف. باستخدام هذه الطريقة.في أي وقت. من المحتمل أن 
يختار الوكيل بين الاستكشاف والاستخراج. يستكشف مع الاحتمال © والاختيار العشوائي من 
جميع العمليات المتاحة ومع احتمال1 - € 

Gos‏ القيم العالية ل © إلى قيام الوكيل بمزيد من البحث. ونتيجة UA‏ تقلل من احتمالية 
التطبيق الأمثل. حيث أنه يمنح الوكيل القدرة على الاستجابة بسرعة للتغييرات التي تحدثفي 


البيئة.في المقابلء تؤدي القيم المنخفضة للعامل © إلى إجراءات أكثر كفاءة. 
استكشاف بولتزمان 


يقة أخرى لتحديد الإجراءات هي سياسة توزيع بولتزمان. توزيع بولتزمان هو سياسة تعليمية 
تقلل من الميل للاستكشاف بمرور الوقت. ومن المفترض أنه مع تقدم التعلم» يتحسن النموذج 
الحالي. يخصص توزيع بولتزمان احتمالية لكل عملية باستخدام معامل T‏ تسمى درجة الحرارة. 
توزيع why‏ باستخدام المعادلة AJLI‏ يخصص احتمالية إيجابية لكل إجراء محتمل 


:aeA 

Q(s,a) 

T 
P(als) = VICES 

YácA* T 

حيث: 
[0-م - 
Dong 6 7 * Tua tl‏ 


يرتبط الاجراء مع المزيد من Q(s, a)‏ باحتمال أكبر PI‏ يتناقص T‏ مع زيادة التكرار J‏ 2355 
الوقت. وهكذا e‏ مع تقدم التعلم » يتناقص الميل للاستكشاف في الوكيل » ونتيجة لذلك e‏ تميل 
سياسة التعلم لتوزيع بولتزمان إلى أن تكون مشتقة من الاجراءات ذات a)‏ ,5) 0 العالية. تُضبط 
المعاملات ررر sey‏ ومعدل الهبوط dj‏ أولاً. 
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بناء على النموذج مقابل بدون نموذج 


كما ذكرنا سابقا » فإن الهدف الرئيسي LSU‏ في التعلم المعزز هو تجميع أكبر قدر من المكافأة 
على "المدى الطويل". للقيام بذلك . يجب على الوكيل إيجاد السياسة المثلى للسلوك في البيئة. 
يمكن أن تكون البيئة محددة أو عشوائية (غير مؤكدة). بمعنى . إذا قام الوكيل بإجراء ما في موقف 
معين » فقد لا تكون الحالة التالية للبيئة هى نفسها دائمًا. من المؤكد أن هذه الشكوك تجعل من 
الصعب العثور على السياسة المثلى. l‏ 


التنبؤ مقابل المراجعة 

تشير إمكانية التنبؤ والمراجعة إلى مسألتين أساسيتين يجب على عامل التعلم المعزز 
معالجتهما. يتطلب التنبؤ القدرة على حساب أو تقدير عواقب الإجراء. عادة ما تعني المشاكل 
التنبؤية تقدير قيم الحالات أو قيم الاجراء لأزواج الحالة-الاجراء.ني لكات تتطلب 
المراجعة القدرة على اتخاذ القرارات. بدون مراجعةء الوكيل لا يتخذ أي إجراء. 

مشكلة التنبؤ: بالنظر إلى عملية صنع القرار لمارکوف (SS‏ ۸ء «y RP‏ والسياسة em‏ 


يجب إيجاد دالة القيمة -v (T)‏ بعبارة أخرى. الهدف هو فهم مدى جودة السياسة. 

مراجعة المشكلة: وفقا لعملية صنع القرار الخاصة بماركوف o y RP A IS»‏ يجب 
العثور على القيمة المثلى ل v (T)‏ والسياسة المثلى "10 بمعنى اخرء الهدف هو العثور على 
السياسة التي توفر أكبر قدر من المكافأة مع أفضل إجراء للاختيار من بينها. 


كما نعلم » في التعلم المعزز » غالبا ما تتم المشكلة من وجهة نظر رياضية كعملية صنع قرار 
ماركوف. عملية صنع القرار في ماركوف هي طريقة لإظهار" ديناميكيات" البيئة ؛ أي كيف تتفاعل 
البيئة مع الإجراءات المحتملة للوكيل في موقف معين. بتعبير أدق » تم تجهيز عملية صنع القرار 
في ماركوف بدالة نقل . وهي دالة » نظرًا للحالة الحالية للبيئة والعلم الذي قد يؤديه الوكيل e‏ 
تجعل من الممكن التحويل إلى أي من المخرجات. ترتبط دالة المكافأة أيضًا بعملية صنع القرار 
في ماركوف. 

تتم مكافأة دالة المكافأة Ga,‏ للحالة الحالية EU‏ وربما الإجراء الذي يقوم به الوكيل والحالة 
التالية للبيئة. غالبا ما تسمى دوال المكافأة والتحويل بأنماط البيئة. ومع ذلك » في بعض الأحيان 
ليس لدينا دوال المكافأة والتحويل. ومن ثم لا يمكننا تقدير السياسة لأنها غير معروفة. في غياب 
هذه الدوال » لتقدير السياسة المثلى e‏ من الضروري التفاعل مع البيئة ومراقبة استجاباتها . والتي 
يشار إليها OUS‏ باسم "مشكلة التعليم المعزز". لأنه . يجب على الوكيل تقدير السياسة من خلال 
تعزيز معتقداته حول ديناميكيات البيئة. 

بمرور الوقت » يبدأ الوكيل في فهم LAS‏ تفاعل البيئة مع أفعاله ويمكنه تقدير السياسة المثلى. 
لذلك » في مشاكل التعليم المعزز » يتم تقدير عامل السياسة الأمثل للسلوك في بيئة غير مألوفة 
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من خلال التفاعل معها باستخدام طريقة "التجربة والخطأ". وفقا لذلك . يمكن تقسيم 
خوارزميات التعلم المعزز إلى خوارزميات قائمة على النموذج أو غير قائمة على النموذج. 

في الخوارزميات المستندة إلى النموذج» يمكن للوكيل الوصول إلى نموذج كامل للبيئةء أو 
يحاول تعلمه من خلال التفاعل» ويستخدم دالة النقل والمكافأة لتقدير السياسة المثلى بدقة. 
بمعنى آخر. يحاول الوكيل أخذ عينات من النموذج الاحتمالي وتعلمه واستخدامه لتحديد أفضل 
الاجراءات. يجوز للوكيل فقط الوصول إلى دوال التحويل والمكافأة التقريبية التي تعلمها الوكيل. 
حيث أنه يتفاعل مع البيئة أو يمكن أن يعطى لوكيل واحد من خلال وكيل ST‏ على سبيل المثال. 

بشكل Geele‏ الخوارزمية القائمة على النموذج» يمكن للوكيل توقع ديناميكيات البيئة أثناء أو 
بعد مرحلة التعلم. هذا لأنه يحتوي على تقدير لدوال النقل ودالة المكافأة» وإذا تم التعرف على 
احتمالية النقل بنجاح» فإن الوكيل يعرف مدى احتمالية الدخولفي حالة معينة بالنظر إلى الحالة 
الحالية والإجراء. وتجدر الإشارة. مع ذلك إلى أن دوال التحويل والمكافأة التي يستخدمها الوكيل 
لتحسين تقدير سياسته المثلى قد تكون مجرد تقريب للدوال "الحقيقية". ومن ثم قد لا يتم العثور 
على السياسة المثلى بسبب هذه التقريبات. 

على عكس الخوارزميات القائمة على النموذج» لا تمتلك الخوارزميات غير النموذجية معرفة 
أساسية بدالة النقل ويجب أن تتعلمها أثناء التعلم لإيجاد مسارات DLS‏ بعبارة أخرى» تقدر 
الخوارزمية غير المعدلة إما "دالة القيمة" أو "دالة السياسة" مباشرة من التجربة» أي من خلال 
التفاعل بين الوكيل والبيئةء دون استخدام دوال النقل والمكافأة. 

تتمثل إحدى طرق التمييز بين الأساليب القائمة على النموذج وغير القائمة على النموذجفي: 
هل يمكن للوكيل التنبؤ بالحالة التالية والمكافأة قبل بدء أي نشاط ما بعد التعلم؟ بمعنى PT‏ 
تتمثل طريقة التمييز بين الخوارزميات القائمة على النموذج أو غير القائمة على النموذجفي فحص 
الخوارزميات ومعرفة ما إذاكانت تستخدم دوال التحويل والمكافأة. إذا تم استخدامهاء فهي عبارة 
عن خوارزمية التعليم المعزز القائمة على النموذج. 

كلتا الطريقتين لها نقاط قوة ونقاط ضعف. تضمن الطرق غير النموذجية إلى حد ما أنها ستعثر 
في النهاية على السياسة المثلى ولديها وقت حساب ضثيل جد لكل تجربة. ومع US‏ فهم 
يستخدمون البيانات أثناء اختبار غير فعال للغاية» وبالتالى Le WE‏ يتطلبون قدرًا PS‏ من الخبرة 
لتحقيق أداء جيد.في المقابل» يمكن للخوارزميات القائمة على النموذج التغلب على هذه 
المشكلةء لكن الوكيل يتعلم فقط من أجل نموذج معين وأحيانا لا يكون Cota‏ لبعض النماذج 
الأخرى. يستغرق الأمر أيضًا وقتا لتعلم نموذج آخر. 

من المزايا المهمة لامتلاك نموذج أنه يسمح للوكيل بالتخطيط للمستقبل ومعرفة ما سيحدث 
لمجموعة واسعة من الإجراءات المختلفة التي يمكنه القيام Ue‏ حالته الحالية. ثم قارن هذه 
النتائج عندما تقرر التصرف. يمكن أن يؤدي هذا إلى تحسن كبيرني الأداء مقارنة بالخوارزميات 
التي لا تستخدم النموذج. تعتمد الخوارزميات التي لا تعتمد على النموذج فقط على "التجربة 
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والخطأ" لتحديث معارفهم. WU‏ لا يحتاجون إلى تخزين جميع مجموعات الحالات 
والإجراءات. 

يمكن تصنيف النهج غير النموذجي على أنه داخل السياسة'وخارج السياسةة. تستخدم 
الأساليب داخل السياسة السياسة الحالية لإنشاء الإجراءات واستخدامها لتحديث السياسة 
الحالية.في حين أنه.في الأساليب الخارجة عن السياسةء يتم استخدام سياسة استكشافية مختلفة 
لإنشاء إجراءات مقارنة بالسياسة الناشكة. 


المناهج الكلاسيكية للتعليم المعزز 


الآن بعد أن أصبحت على دراية بالمفاهيم الأساسية للتعليم المعزز سنقومني هذا القسم بوصف 
الأساليب الكلاسيكية للتعليم المعززني حل المشكلات. يمكن تقسيم هذه الأساليب إلى 
ندرس هذه الأساليب. 


الشكل 6-9. كيفية تقسيم مناهج التعليم المعزز. 


1 on-policy 
? off-policy 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


البرمجة الديناميكية' 


يشير مصطلح البرمجة الديناميكية إلى مجموعة من الخوارزميات التي يمكن استخدامها لحساب 
السياسة المثلى Giy‏ لنموذج كامل للبيئة كعملية ماركوف لاتخاذ القرار. الفكرة الرئيسية للبرمجة 
الديناميكية والتعليم المعزز بشكل عام هي استخدام دوال القيمة لتنظيم هيكل البحث عن 
سياسات جيدة. خوارزميات البرمجة الديناميكية الكلاسيكية لها تطبيق محدودفي التعليم المعزز 
بسبب افتراض نموذج كامل وأيضًا بسبب التكلفة الحسابية العالية. ومع ذلك لا JUS‏ هذه 
الأساليب مهمة من الناحية النظرية. 

تتضمن البرمجة الديناميكية نسختين مختلفتين من كيفية تنفيذها: تكرار السياسة وتكرار 
القيمة. فيما يلي» سوف نصف بإيجاز هذين النهجين. 
تكرار السياسة 


عندما يتم تحسين سياسة T‏ باستخدام وا للحصول على سياسة TE‏ أفضلء. يمكن حساب Ug‏ 
وإعادة تحسينها للحصول على سياسة "7 أفضل. الحصول على قواعد موحدة ودوال القيمة: 


E I E I E I E 
To —9 Ug, — رع‎ —> Ug, — T3 —> +++ — يج‎ — Ue, 


إنه مضمون أن كل سياسة سيتم تحسينها عن السياسة السابقة؛ ما لم يكن هو بالفعل الأمثل. 
نظرًا OY‏ عملية صنع القرارني ماركوف المحدود لا تحتوي إلا على عدد محدود من السياسات. 
يجب أن تتقارب هذه العملية مع سياسة واحدة ودالة القيمة المثلىفي عدد محدود من التكرارات. 

تسمى هذه الطريقة للعثور على السياسة المثلى تكرار السياسة. وتجدر الإشارة إلى أن كل تقييم 
للسياسة؛ والذي يعد بحد ذاته حسايًا تكراريّاء يبدأ بدالة قيمة للسياسة السابقة. وعادة ما يؤدي 
هذا إلى زيادة هائلةفي سرعة تقارب تقييم السياسات؛ ربما لأن دالة القيمة تتغير قليلاً من سياسة 
إلى أخرى. 
تكرار القيمة 
تتمثل إحدى عيوب طريقة تكرار السياسةفي أن كل تكرار يتضمن تقييمًا للسياسة» والذي قد 
Gey‏ حد ذاته حسابًا متكررًا طويلاً يتطلب تحولات متعددةفي مجموعة الحالات.ني حالة 
السؤال الذي يطرح نفسه. هل يجب أن ننتظر تقاريًا دقيقا أم يمكننا التخلي عنه؟ 

يمكن تقصير خطوة تقييم السياسةء وتكرار السياسة بعدة طرق دون فقدان ضمان تقارب 
تكرار السياسة. تعتبر الحالة الخاصة مهمة عندما يتم إيقاف تقييم السياسة بعد خطوة واحدة فقط. 


1 Dynamic programming 
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تسمى هذه الخوارزمية تكرار (lly hell‏ يمكن كتابنها Lea‏ دعم età Masa‏ بين سین 
السياسة Cal glade y‏ قي السياسة: 
Vk 44(s) = maxgE[Re41 + YVr(St+1)lSt = s, Ac = a]‏ 


= MAXa > p($,r|s, a)[r + yv ($)] 
Sr 


vo GY‏ مرغوب 4d‏ يمكن إظهار أن التسلسل (vx)‏ يمكن أن يتقارب مع v‏ في ظل نفس 
الظروف التي تضمن وجود VT‏ 

أخيرًا . لنتأمل كيف ينتهي تكرار القيمة. مثل تقييم السياسة . يتطلب تكرار القيمة رسميًا عددًا 
غير محدود من التكرارات لتتقارب GLS‏ من الناحية العملية » ونتوقف عندما تتغير دالة القيمة 
بمقدار صغير فقط في نوبة واحدة. 
تكرار خط السياسة المعمم1 
يتضمن تكرار السياسة عمليتين متزامنتين ومتبادلتين» واحدة تجعل دالة القيمة متوافقة مع 
السياسة الحالية (تقييم السياسة). والأخرى جشع للسياسة فيما يتعلق بدالة القيمة الحالية 
(تحسين السياسة).في تكرار السياسة؛ تكون هاتان العمليتان متناوبتين وتكتملان قبل أن lcs‏ 
العملية الآخرى» لكن هذا ليس ضروريًا حقا. على سبيل المثالءفي عمليات تكرار القيمة» يتم 
إجراء تكرار واحد فقط لتقييم السياسة بين كل تحسين للسياسة. 

يستخدم مصطلح تكرار السياسة المعمم للإشارة إلى الفكرة العامة للسماح بالتفاعل بين 
عمليات تقييم السياسة وتحسين السياسةء بغض النظر عن تفاصيل العمليتين. يظهر المخطط 
العام لتكرار السياسة المعممفي الشكل 7-9. 


Tx Ux 


الشكل 7-9. تكرار السياسة المعمم. تتفاعل دوال القيمة والسياسة طالما أنها مثالية وبالتالي 


! generalized policy iteration (GPI) 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


من السهل أن نرى Gal‏ حالة استمرار كل من عملية التقييم وعملية التحسين» أي أنهما لم 
يعدا يتغيران» فيجب أن تكون llo‏ القيمة والسياسة هي الأمثل. تصبح دالة القيمة مستقرة فقط 
عندما تكون متوافقة مع السياسة الحالية» وتصبح السياسة مستقرة فقط عندما تكون جشعة فيما 
يتعلق بدالة القيمة الحالية. لذلك» يتم تثبيت UIS‏ العمليتين فقط عندما يتم العثور على سياسة 
جشعة لدالة التقييم الخاصة بها. يوضح هذا أن معادلة تحسين بلمان ثابتةء وبالتالي فإن السياسة 
والقيمة هما القيمتان الأمثل. 

يمكن اعتبار عمليات التقييم والتحسينفي تكرار السياسة العامة بمثابة منافسة وتعاون. على 
المدى «lo dal‏ تتفاعل هاتان العمليتان لإيجاد حل مشترك: دالة القيمة المثلى والسياسة المثلى. 


مونت كارلو 


على عكس البرمجة الديناميكيةء تتعلم طريقة مونت كارلو من التجربة فقط. من نواح كثيرةء يمكن 
اعتباره أبسط طريقة للتعليم المعزز. تحدد طريقة مونت كارلو قيمة الحالة بتمريرها عدة مرات 
ومتوسط إجمالي المكافأة المستلمة بعد الموافقة على الحالة. نظرًا لأن إجمالي المكافأة المستلمة 
قبل إكمال المرحلة غير معروف. فإن طريقة مونت كارلو تنطبق فقط على مرحلة الاجراء. لا يتم 
التحديث إلا بعد انتهاء الحركةني مساحة الحالة» lly‏ تسمى التحديث غير المتصل (التحديث 
أثناء التنقلفي مساحة الحالة يسمى التحديث الاونلاين). بالإضافة إلى as‏ طريقة مونت 
HIS‏ تستند القيم إلى التجربة الفعلية» وليس على قيم الحالات البديلة. 

تعتمد طرق مونت كارلو على فكرة تكرار السياسة المعمم. كما ذكرنا سابقاء يعد تكرار السياسة 
المعمم مخططًا OS‏ ويتكون من خطوتين.في الخطوة الأولى» نحاول إنشاء تقريب دالة القيمة 
Sb‏ على السياسة الحالية» والتي تعرف باسم خطوة تقييم السياسة.في الخطوة AS‏ يتم تحسين 
السياسة وفقًا لدالة القيمة الحالية» والتي تُعرف بخطوة تحسين السياسة.في طريقة مونت كارلوء 
لتقدير دالة القيمةء يتم تنفيذ البرامج عن طريق تشغيل السياسة الحالية على النظام. يتم استخدام 
المكافأة التراكمية طوال المرحلة وتوزيع الحالات التي تمت مواجهتها لتشكيل تقدير لدالة القيمة. 
بعد US‏ يتم تقدير السياسة الحالية بجشع G y‏ لدالة القيمة الحالية. باستخدام هاتين الخطوتين 
بشكل متكرر» يمكن إظهار أن الخوارزمية تتقارب مع القيمة المثلى ودالة السياسة. على الرغم 
من أن طرق مونت كارلو سهلة التنفيذ. إلا أنها تتطلب Bae‏ كبيرًا من التكرارات لتتقارب وتعاني 
من تباين كبيرفي تقدير دالة القيمة. l‏ 
تعلم الفرق الزمنى 
يتضمن تعلم الفرق الزمني أفكار البرمجة الديناميكية ومونت كارلو. يقترب نهج الفرق الزمني من 
قيمة زوج الإجراء-الحالة من خلال مقارنة التقديرات عند نقطتينفي الوقت المناسب» ومن هنا 
جاء اسم الفرق الزمني. مثل البرمجة AR LM‏ تتعلم خوارزميات تعلم فرق الوقت تقدير القيم 
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ely‏ على تقديرات أخرى (تسمى البوتسترابينك'). أيضًاء يمكن تعلم الفرق الزمني» مثل طريقة 
مونت كارلوء مباشرة من التجربة دون معرفة مسبقة بالبيئة. هذا يعني أن تعلم الفرق الزمني هو 
نهج تعليمي غير نموذجي (أو يمكن معادلته بالتعلم غير الخاضع للإشراف). 

الفكرة الرئيسية لمنهج تعلم الفرق الزمني هي التعلم Fy‏ على الفرق بين تنبؤات الوقت 
المتتاليةء ولا داعي للانتظار حتى نهاية المسار للتحديث. بمعنى آخرء الغرض من التعلم هو جعل 
التنبؤ الحالي للمتعلم لنمط الإدخال الحالي أكثر GCSE‏ مع التنبؤ التاليفي الخطوة التالية. تكمن 
فكرة هذه الطريقةفي أنه بعد ملاحظة بعض المكافآت التي حصل عليها الوكيل بعد زيارة حالة ما 
وتنفيذ إجراء معين» فمن الممكن تقديم تقدير أفضل لمقدار زوج بين الحالة والاجراء. 


أساليب مونت كارلو والبرمجة الديناميكية لها نقاط ضعف خطيرة؛ مونت كارلو غير قادر على 
حل المشكلات المستمرةء وتتطلب البرمجة الديناميكية نموذجا للبيئة. يستخدم تعلم الفرق 
الزمني عينة احتياطيةفي طريقة مونت كارلو والتمهيدفي طريقة البرمجة الديناميكيةفي نفس 
الوقت. WY‏ يتم الجمع بين الأجزاء الجيدة فقط من الطرق السابقة. 


تستخدم طريقة مونت كارلو المكافأة الإجمالية لتحديث دالة القيمة. حيث إن تعلم الفرق 

الزمني بدلاً من تحديث القيم في نهاية المرحلة (باستخدام المكافأة الإجمالية)» تقوم بتحديث 

القيم اونلاينني كل مرحلة. 
يمكن استخدام مخطط الدعم لمقارنة الأساليب الثلاثة » مونت كارلو » البرمجة الديناميكية › 
وتعلم الفرق الزمني. يمكن رؤية مقارنة بين هذه الأساليب الثلاثة c‏ على مخطط الدعم للحالة 
والقيمة في الشكل 7-9. 

غالبا ما يشير تعلم الفرق الزمني إلى مشكلة تنبؤ بقاعدة تحديث لدالة قيمة معينة: 
V(s) —V(s) + a(r + yV(4) — V(s))‏ 

حيث » هو معدل التعلم و y‏ هو عامل الهبوط. يُعرف الجزء الموجود بين قوسين باسم خطأ 
الفرق الزمني: 


ó, =r + yV($) - V(s) 
تستخدم طريقة اتعلم الفرق الزمني للتنبؤ بطريقتين مختلفتين للمراجعة. والفرق الرئيسي بين‎ 
الطريقتين هو أن إحداهما في السياسة والأخرى خارج السياسة. الخوارزميتان المستخدمتان على‎ 
في ما يلي » سوف نفحص هذين‎ .Q-Learning و‎ Sarsa نطاق واسع في التعليم المعزز هما‎ 
النوعين من خوارزميات الفرق الزمني.‎ 


1 bootstrapping 


تعلم IY‏ وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والآدوات 


مو نت کار لو 
V(St) + V(Sr) + a (G: — V(Sz))‏ 


S, 


الفرق الزمني 


V(S)) + V(St) + o (Resa +7V(Se+1) - V(St)) 


mut 7‘ i ES i 
w وو‎ * a 


V(S:) — Ex [Resi + ¥V(Se+1)] 


ewe , ١1 46% A 
© 4 V (789 a 


/ ` 


لدوال الحالة القيمة 
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Sarsa‏ )3( السياسة) 
4 هي طريقة تعليم معزز بالفرق الزمني تتعلم الإجراء بدلاً من دالة القيمةفي محاولة لتقدير 
دالة القيمة. تمت تسمية هذا الميراث باسم: LUI")‏ "الإجراء". "المكافأة". "الحالة EIEN‏ 
"الإجراء التالي"). هذا النهجفي السياسةء OY‏ يقدر rJ Qe s, a)‏ للسياسة الحالية. قاعدة تحديث 
الحالة القيمة ھی كما يلى: 
Q(s,a) > Qs, a) + a(r  yQ($, á) — Q(s,a))‏ 

يمكن إثبات أن Sarsa‏ يتقارب مع السياسة المثلى عند زيارة جميع أزواج غير محددة من 
الاجراء-الحالة. 
Q-Learning‏ (خارج السياسة) 
يُطلق على تعلم الفرق الزمني خارج سياسة ب Q-Learning‏ وهو أحد أكثر الأساليب الأساسية 
والأكثر شيوعًا لتقدير دوال قيمة Q‏ بطريقة غير نموذجية. قاعدة تحديث هذه الطريقة هي كما 
يلي: 

Q(s,a) — Q(s,a) + a(r  ymaxaQ($,à) — Q(s,a)) 

تحاول Ji Q- Learning‏ قصارى جهدها في الوضع الحالي. تعتبر هذه الخوارزمية TIE‏ 
السياسة. وذلك oY‏ دالة Q-Learning‏ تتعلم من الإجراءات خارج السياسة الحالية. بشكل 
«ple‏ تسعى Q- Learning‏ إلى تعلم السياسة من أجل تعظيم المكافأة الإجمالية. اليوم » تعتمد 
العديد من خوارزميات التعلم العميق المعزز على -Q-Learning‏ 


Q-Learning‏ غير مبال بالاستكشاف. وهذا يعنى أنه بغض النظر عن السياسة الاستكشافية 
المتبعة » فإنها تتقارب مع السياسة المرغوبة ؛ بافتراض أن كل زوج من إجراءات الحالة تمت 


زيارته عددًا غير محدود ويتم تقليل معامل التعلم » بشكل مناسب. 
البحث فى السياسة 
لا تحتاج طرق البحثني السياسة إلى الحفاظ على نموذج دالة القيمةء ولكنها تبحث مباشرة عن 
السياسة المثلى *7. من بين خوارزميات البحث عن السياسةفي التعلم المعززء تعد خوارزمية 
التدرج السياسي هي الأكثر شيوعا. 

الغرض من التعلم المعزز هو إيجاد استراتيجية سلوك مثالية للوكيل للحصول على BKI‏ 
المثلى. تعمل طرق التدرج السياسي مباشرة على نمذجة السياسة وتحسينها. يتم تقييم هذه 
السياسة من خلال تنفيذ الإجراءات المنصوص عليهاني السياسة الحالية وحساب المكافأة. ثم 
يتم تحديث معاملات السياسة لزيادة العائد المتوقع باستخدام التدرج التنازلي. يمكن كتابة قاعدة 
التحديث لمعاملات السياسة على النحو التالي Giy‏ للعائد المتوقع J‏ 
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م 
Of. = OF + aVorj „j = EL) YT‏ 

البحثفي السياسة لديه ut‏ أفضل ويمكن أن يتعلم سياسات عشوائية غير ممكنة مع 
الأساليب القائمة على القيمة. العيب الرئيسي لخوارزميات السياسة هو مرحلة تقييم السياسة 
والتي تعاني من تباين كبير وبالتالي يمكن أن تكون بطيئةفي تعلم السياسات الجيدة. 
نقد الوكيل 
طرق التدرج السياسي النقي بطيئة التعلم بسبب تقديرات التباين العالية وغير مناسبة لأداء 
المشكلات الاونلاين. ومع AUS‏ يمكن استخدام طرق الفرق الزمني للتعامل مع هذه المشاكل. 

تتطلب مقاربات دالة القيمة نظريًا التغطية الكاملة لمساحة الحالة والقيم المضخمة المقابلة 
لجميع العمليات الممكنةفي كل حالة. لذلك عند العمل مع التطبيقات عالية الأبعاد. فإنه يحتوي 
على الكثير من التعقيد الحسابيء وأيضاء قد يتسبب تغيير بسيطفي القيم المضخمة المحليةفي 
حدوث تغيير كبيرفي السياسة. 

على عكس طرق دالة القيمة ‏ تراعي طرق بحث السياسة السياسة الحالية والسياسة التالية 
للسياسة الحالية ‏ قم تحسب التغبيرات في معاملات السياسة » مما يؤدي إلى تعقيد حسابي أقل 
بكثير من أساليب دالة القيمة. ومع ذلك e‏ قد تؤدي مناهج بحث السياسة إلى التحسين المحلي 
وتفشل في تحقيق التحسين العالمي. 

من خلال الجمع بين هذين النهجين» تتعلم طرق نقد الوكيلفي نفس الوقت سياسة ودالة 
القيمة الحالة. يُعرف هذا النهج» الذي يتم تقديمه من خلال الجمع بين دالة القيمة ونهج البحث 
عن السياسة للاستفادة من كلتا الطريقتين» باسم هيكل نقد الوكيل. يمكن القول إن طريقة نقد 
الوكيل هي طريقة تعلم الفرق الزمني التي تخزن السياسة بشكل صريح. كما هو مبينفي الشكل 
8-9 يتم اختيار الإجراء بواسطة وكيل التحكم ويتم استخدام النقد لنقل القيم إلى الوكيل. 
لذلك» يعتمد قرار تحديث السياسة على هذا النقد. 


المكافأة 


الشكل 8-9. هيكل نقد الوكيل 
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الطريقة المشتركة (داينا-كيو') 


داينا- كيو هي إحدى البنى التي لديها القدرة على الجمع بين القدرة على التعلم بطريقة غير 
نموذجية والقدرة على البرمجةفي الأساليب القائمة على النموذج. تتعلم الخوارزمية نموذجًا من 
خلال رؤية الحالات التي تتم زيارتها والمكافآت التي تحصل عليهاني حالة Rus‏ وتستخدم 
المعلومات لتحديث احتمالات التحويل ودالة المكافأة. 


التعلم بالمحاكاة' 


على الرغم من أن التعليم المعزز قد حقق Cas‏ من أكثر التطورات التقليدية في الذكاء الاصطناعي 
في السنوات الأخيرة . إلا أن نجاحه اقتصر إلى حد كبير على مجالات المحاكاة حيث يتم تحديد 
إشارة المكافأة وإعطاءها جيدً. على الرغم من أنه قد يكون واضحًا بشكل بديهي ما هي دالة 
المكافأة في المجالات المحاكاة (مثل النقاط في ألعاب (Atari‏ في العديد من مجالات العالم 
الحقيقي . من الصعب جد افتراض إمكانية الوصول إلى دالة المكافأة. ضع في اعتبارك مهمة 
تعلم سياسة قيادة جيدة. بينما يمكن للسائق البشري الجيد القيادة بأمان على الطريق » فقد لا 
يكون قادرًا على صياغة دالة المكافأة رياضياً والتي تميز بدقة بين سياسات القيادة الجيدة والسيئة. 
بدون أداء جيد للمكافأة ‏ فإن التعليم المعزز غير مناسب لحل مشكلة القيادة الذاتية. 

على الرغم من صعوبة تحديد دالة المكافأة « يمكن تعلم سياسة جيدة من خلال التقليد المباشر 
للمسارات التى يوفرها خبير قد يكون أو لا يكون لديه إمكانية الوصول إلى دالة المكافأة الفعلية ؛ 
ومع ذلك » فهو يعرف كيف يتصرف في بيئة مثالية. من الناحية المثالية o‏ لا يتذكر الخط مسارات 
الخبراء فحسب . بل يعمم أيضًا سلوك الخبراء في الحالات غير المرئية على مسارات الخبراء. 
يعرف هذا النهج لتعلم السياسة من خلال التقليد باسم التعلم بالمحاكاة. 

الهدف من تقنيات التعلم بالمحاكاة هو محاكاة السلوك البشري في مهمة محددة. يتم تدريب 
الوكيل على أداء مهمة من خلال تعلم التعيين بين الملاحظات والإجراءات. كانت فكرة التعلم 
بالمحاكاة موجودة منذ سنوات. ومع EUS‏ فقد حظي هذا المجال بالاهتمام مؤخرًا بسبب التقدم 
في الحوسبة بالإضافة إلى زيادة الطلب على التطبيقات الذكية. إن نموذج التعلم عن طريق 
المحاكاة يكتسب شعبية » لأنه يسهل تدريب المهام المعقدة بأقل قدر من المعرفة المتخصصة 
بالمهام. يمكن أن تقلل أساليب التعلم المقلدة من مشكلة تدريب مهمة ما لمشكلة عرضها دون 
الحاجة إلى برمجة صريحة أو تصميم دوال مكافأة محددة لتلك المهمة. 


1 Dina 0 


2 Imitation Learning 
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الفرق بين التعلم بالمحاكاة والتعلم المعزز 
في التعلم بالمحاكاة . يلاحظ المتعلم أولاً تصرفات الخبير WE)‏ ما يكون بشريًا) في مرحلة 
التعلم. ثم يستخدم المتعلم مجموعة التدريب هذه لتعلم السياسة . والتي تحاول محاكاة 
الإجراءات التى أظهرها الخبير لتحقيق أفضل أداء. من ناحية أخرى Ve‏ توجد مثل هذه الخبرة 
في التعلم المعزز. بدلا من ذلك » يمتلك الوكيل دالة "BK"‏ ويستخدم استراتيجيات لاستكشاف 
الموقف ومساحة العمل بفعالية c‏ ويوفر وحده (عن طريق التجربة والخطأ) السياسة المثلى. لنفكر 
في الوكيل الذاتي. يمكن أن تكون مساحة الحالة هي ما يراه الوكيل في أي لحظة: الطريق « 
والإشارات . والمركبات الأخرى c‏ والمشاة. يمكن أن تكون الإجراءات هي التوجيه والتسارع 
والتوقف. 

عامل التعلم بالمحاكاة يراقب السائق البشري (الخبير) ويسجل أفعاله في المواقف المختلفة. 
ومن ثم o‏ فإنه ينشئ سياسة في كل موقف . بناءً على ما قام به الخبير » والإجراءات التي ينبغي 
اتخاذها. في وقت التشغيل » يبذل قصارى جهده لتقريب الإجراء الصحيح Fly‏ على السياسة e‏ 
OY‏ المواقف ليست متطابقة Vales‏ وسيتم تقديم عنصر الاحتمال. 

في المقابل » يتلقى عامل التعلم المعزز دالة المكافأة. على سبيل المثال » يتم احتساب كل 
ثانية تمر كنقطة إيجابية » وإذا اصطدمت أو اصطدمت بمشاة أو سيارة أخرى » تنتهي المهمة 
بمكافأة صفرية. يبدأ الوكيل بعد ذلك بإجراءات عشوائية ويتعلم من خلال التجربة والخطأ 
الإجراءات التي تزيد من المكافأة وأيها تصل إلى الصفر. بعد فترة » عندما يكون السياسة جيدَّة 
ty) LASS by‏ على معايير الأداء» > يستخدم الوكيل السياسة للقيادة. لذا فإن كلا الطريقتين 
تؤديان إلى إستراتيجية وقت التشغيل. فقط طريقة تعلم السياسة مختلفة. 


التعلم عن طريق المحاكاة المباشرة (محاكاة السلوك) 


تواجه عملية اتخاذ القرار متعددة الخطوات في التعلم المعزز مساحة بحث ضخمة » لذلك ليس 
من السهل استخدام المكافآت التراكمية لتعلم القرارات الصحيحة التي تم اتخاذها عدة خطوات 
مسبقًا. ومع ذلك . يمكن الحد من مثل هذه المشكلة بشكل جيد عن طريق المحاكاة المباشرة 
لأزواج الحالة-الاجراء التي يقدمها الخبراء البشريون . وهو ما يسمى التعلم المحاكي المباشر 
(المعروف باسم محاكاة السلوك). 

لنفترض أن الخبراء البشريين قد أعطانا مجموعة من المسارات {Ty ... Tm}‏ حيث يحتوي 
كل مسار على سلسلة من الحالات والإجراءات.: 

Ud T MU 

حيث :11 هو عدد الانتقالات في المسار i‏ هذه المعلومات تخبر الوكيل بما يجب فعله في كل 
حالة. وبالتالي » يمكننا استخدام التعلم الخاضع للإشراف لتعلم السياسة التي تتوافق مع بيانات 
المسار التي تم الحصول عليها من الخبراء البشريين. 
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يمكننا استخراج أزواج الحالة-الإجراء من جميع المسارات لإنشاء مجموعة بيانات جديدة: 
D = {(s1, a), (55,25), ..., (Sym. nj aym n;))‏ 
الذي يعلق على الحالات كسمات والإجراءات كعلامات. 
بعد ذلك . من مجموعة البيانات D‏ يمكننا تعلم نموذج سياسة باستخدام خوارزميات 
التصنيف للاجراءات المنفصلة أو خوارزميات الانحدار للاجراءات المستمرة. 
ثم تقوم محاكاة السلوك (BC)‏ بحل السياسة عن طريق تقليل الخسارة التعليمية الخاضعة 


للإشراف: 
N‏ 1 
minyJgc() = — ١ logm(se, ax)‏ 
k=1‏ 
التعلم المعزز العكسى' 


في العديد من التطبيقات c‏ غالبا ما يكون تصميم دالة المكافأة V‏ صعبًا . ولكن قد نتمكن من 
اشتقاق دالة المكافأة بشكل عكسي من الأمثلة التي قدمها الخبراء البشريون. هذا النهج يسمى 
التعلم المعزز العكسي. 

في التعلم المعزز العكسي » تعرف مساحة الحالة X‏ ومساحة الإجراء A‏ » بالإضافة إلى 
مجموعة بيانات المسار GLS «ÈT, ..., Tn}‏ كما لدينا في التعلم بالمحاكاة المباشر. الفكرة 
الرئيسية للتعلم المعزز العكسي هي كما يلي: 

إن السماح للوكيل بتنفيذ الإجراءات التي تتوافق مع الأمثلة المقدمة يكافئ إيجاد السياسة 
المثلى في By‏ دالة المكافأة » حيث تخلق السياسة المثلى نفس المسارات مثل الأمثلة المقدمة. 
بمعن ىآخر » نحن نبحث عن دالة المكافأة التي تكون الأمثلة المقدمة هي الأمثل » ثم نستخدم 
دالة المكافأة هذه لتعليم سياسة التعلم المعزز. 

افترض أنه يمكن تمثيل دالة المكافأة كدالة خطية للحالات . أي R(x) = wx‏ بعد ذلك e‏ 
يمكن كتابة المكافآت التراكمية لسياسة T‏ على النحو التالي: 


+00 +00 
p"=E D y'R(xj) r = E D y wx, r 
t=0 t=0 
+00 
= wT E > yx. | 
t=0 


وهو ناتج الضرب الداخلي للمعاملات 1/7 والقيمة المتوقعة لمجموع اوزان متجهات الحالة. 


1 Inverse Reinforcement Learning 


تعلم الالة وعلم البيانات: الأساسيات والمفاهيم والخوارزميات والأدوات 


افرض ”> تمثل القيمة المتوقعة لمتجهات الحالة ELD EG Y Xt [Tt]‏ يمكن تقريب القيمة 
المتوقعة ”£ باستخدام طريقة مونت كارلو: 
يمكن رؤية أمثلة المسارات كعينات من السياسة المثلى» لذلك يمكننا حساب الوزن الإجمالى 
للحالات في كل مثال مسار ثم أخذ المتوسط e‏ المشار إليه ب *2. بعد ذلك c‏ بالنسبة لدالة المكافأة 
المثلى R(x) = w' x‏ لدينا القيمة المتوقعة X7‏ الناتج عن أي سياسة أخرى: 
wx —w x = w ox — x") 20.‏ 
إذا استطعنا حساب X7)‏ — "0 لكل سياسة » فيمكننا ذلك حل المسئلة. 
w* = argmaxy min,w! (x* — x")‏ 
s.t. ||w|| x 1.‏ 
نظرًا لصعوبة الحصول على جميع السياسات . فإن النهج البديل هو البدء بسياسة عشوائية 
واستخدامها للعثور على دالة أفضل للمكافأة مرارًا وتكرارًا. ثم يتم استخدام دالة المكافأة لإيجاد 
سياسة أفضل. تستمر هذه العملية طالما لدينا دالة المكافأة والسياسة المناسبة لمسارات العينة. 
باختصار » في التعلم المعزز العكسي . نبدأ بمجموعة من عروض الخبراء (بافتراض أنها 
مثالية) » ثم نحاول تقدير دالة المكافأة البارامترية e‏ التي تسبب سلوك الخبير (السياسة). 
an ual‏ الفصل التاسع 
" المبدأ الأساسي وراء النماذج الجماعية هو أن مجموعة من المتعلمين الضعفاء يجتمعون 
لمساعدة بعضهم البعض في تكوين متعلم قوي. 
" لن يعمل أي نموذج للتعلم SY‏ وحده بشكل أفضل على جميع أنواع البيانات 
c‏ في نظرية التعلم الجماعي c‏ يُطلق على المتعلمين الضعفاء (أو النماذج الأساسية) نماذج 
يمكن استخدامها ككتل لتصميم نماذج أكثر aries‏ من خلال الجمع بين عدة نماذج. 
m‏ الفكرة من وراء التجميع هي الجمع بين نتائج عدة نماذج للحصول على نتيجة إجمالية. 
7 التجميع يعمل ule‏ أساس أخذ عينات .Bootstrap‏ 
" في التمكين . تتأثر كل فئة بأداء الفتات التي تم إنشاؤها قبل إنشائها. 
" التعلم مدى الحياة هو نموذج متقدم للتعلم الآلي يتعلم باستمرار » ويجمع المعرفة 
المكتسبة في العمل السابق » ويستخدمها للمساعدة في التعلم في المستقبل. 
WE "‏ ما يتم تدريب الشبكات العصبية العميقة على افتراضات العالم المغلق e‏ أي أنه 
LA ne‏ أن يكون توزيع البيانات التجريبية مشابهًا لتوزيع بيانات التدريب. 
" عندما تعالج الشبكات العصبية العميقة البيانات التي لا تشبه التوزيع الذي لوحظ أثناء 
التدريب » فإنها OU‏ ما تقدم تنبؤات SLE‏ وتقوم بذلك بثقة كبيرة. 
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" ينبغي » إن أمكن » تعميم نظام الذكاء الاصطناعي المثالي على عينات خارج التوزيع. 

" يعد الكشف عن التوزيع غير ضروري لضمان موثوقية وسلامة أنظمة التعلم الآلي. 

" يحاول التعلم المعزز من خلال الوكيل حل المشكلة عن طريق التجربة والخطأ من خلال 
التفاعل مع بيئة غير معروفة للوكيل. 

n‏ عمليات صنع القرار في ماركوف هي نموذج رياضي عشوائي لسيناريو صنع القرار. 
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